Busca avançada
Ano de início
Entree
(Referência obtida automaticamente do Web of Science, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores.)

The Use of Latent Semantic Indexing to Mitigate OCR Effects of Related Document Images

Texto completo
Autor(es):
Bulcao-Neto, Renato F. [1] ; Camacho-Guerrero, Jose A. [1] ; Dutra, Marcio [1] ; Barreiro, Alvaro [2] ; Parapar, Javier [2] ; Macedo, Alessandra A. [3]
Número total de Autores: 6
Afiliação do(s) autor(es):
[1] Innolut Sistemas Informat Ltda, Ribeirao Preto, SP - Brazil
[2] Univ A Coruna, La Coruna - Spain
[3] Univ Sao Paulo, DCM, FFCLRP, BR-14049 Ribeirao Preto, SP - Brazil
Número total de Afiliações: 3
Tipo de documento: Artigo Científico
Fonte: JOURNAL OF UNIVERSAL COMPUTER SCIENCE; v. 17, n. 1, p. 64-80, 2011.
Citações Web of Science: 2
Resumo

Due to both the widespread and multipurpose use of document images and the current availability of a high number of document images repositories, robust information retrieval mechanisms and systems have been increasingly demanded. This paper presents an approach to support the automatic generation of relationships among document images by exploiting Latent Semantic Indexing (LSI) and Optical Character Recognition (OCR). We developed the LinkDI (Linking of Document Images) service, which extracts and indexes document images content, computes its latent semantics, and defines relationships among images as hyperlinks. LinkDI was experimented with document images repositories, and its performance was evaluated by comparing the quality of the relationships created among textual documents as well as among their respective document images. Considering those same document images, we ran further experiments in order to compare the performance of LinkDI when it exploits or not the LSI technique. Experimental results showed that LSI can mitigate the effects of usual OCR misrecognition, which reinforces the feasibility of LinkDI relating OCR output with high degradation. (AU)

Processo FAPESP: 05/60729-8 - LISI Group - laboratório de desenvolvimento associado
Beneficiário:Alessandra Alaniz Macedo
Modalidade de apoio: Auxílio à Pesquisa - Tecnologia da Informação no Desenvolvimento da Internet Avançada - TIDIA
Processo FAPESP: 05/60038-5 - ArcaMed: um arcabouço para construção de sistemas de apoio a diagnósticos médicos
Beneficiário:Diego Fiori de Carvalho
Modalidade de apoio: Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Processo FAPESP: 09/14292-8 - ArcaMed: um arcabouço para construção de sistemas computacionais multimídia de apoio a diagnóstico médico
Beneficiário:José Antonio Camacho Guerrero
Modalidade de apoio: Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Processo FAPESP: 09/05504-1 - Desenvolvimento de mecanismos de recuperação de informação para a ferramenta de busca do sistema TIDIA-AE
Beneficiário:Marcio Branquinho Dutra
Modalidade de apoio: Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Processo FAPESP: 06/58984-2 - ArcaMed: um arcabouço para construção de sistemas de apoio a diagnósticos médicos
Beneficiário:Renato de Freitas Bulcão Neto
Modalidade de apoio: Bolsas no Brasil - Pesquisa Inovativa em Pequenas Empresas - PIPE