Pesquisa e Inovação: Sistema para leitura robusta de textos em imagens utilizando deep learning

Processo:	18/01188-7
Modalidade de apoio:	Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Data de Início da vigência:	01 de outubro de 2018
Data de Término da vigência:	30 de junho de 2019
Área do conhecimento:	Engenharias - Engenharia Elétrica

Pesquisador responsável:	Roberto de Alencar Lotufo
Beneficiário:	Roberto de Alencar Lotufo

Empresa:	Neuralmind Inteligência Artificial Ltda
CNAE:	Desenvolvimento e licenciamento de programas de computador customizáveis Pesquisas de mercado e de opinião pública
Município:	Campinas

Auxílio(s) vinculado(s):	19/06667-3 - Leitura robusta de documentos cadastrais usando Deep Learning, AP.PIPE
Bolsa(s) vinculada(s):	18/21707-9 - Sistema para leitura robusta aplicado à placa de veículos e leitura de placa de combustível, BP.TT

Assunto(s):	Aprendizagem profunda Reconhecimento de caracteres Reconhecimento de imagem Reconhecimento de padrões Extração automática de termos Leitura
Palavra(s)-Chave do Pesquisador:	Aprendizagem Profundo de Maquina \| Deep Learning \| Reconhecimento de Texto em imagens \| Reconhecimento Padrões e Aprendizagem de Máquina

Resumo

A extração e a leitura automática de texto em imagens despertam interesse crescente, por serem técnicas que viabilizam um grande número de aplicações comerciais tais como: leitura de textos em imagens e vídeos da web, identificação de textos capturados por vídeos de vigilância, mapas, desenhos de engenharia, reconhecimento de número de série de contêineres, placas de veículos, placas de sinalização, placas de preços, textos em embalagens, anúncios diversos, entre outros. O termo Leitura Robusta (Robust Reading) representa a área de pesquisa relacionada à interpretação de comunicação escrita em ambientes sem restrições. O grande interesse nesta área pode ser comprovado pelo aumento recente de competições e desafios na área, denominadas Robust Reading Competition, organizadas pela International Conference on Document Analysis and Recognition (ICDAR/IAPR), que passaram de apenas uma competição em 2003 para 9 em 2017. A detecção, localização, classificação de caracteres e de palavras em imagens é um tema que a comunidade científica tem evidenciado a relevância desde a década de 80, e a metodologia de pesquisa vem evoluindo progressivamente, com técnicas de segmentação de texto, baseadas em características como forma, cor, textura e métodos tradicionais de classificação de padrões. Embora seja um problema há muito tempo estudado, há grande necessidade de mercado para aplicações que consigam taxas de erro inferiores às humanas, o que é atestado pelo aumento recente das competições dedicadas a desenvolver soluções tecnológicas mais eficientes para esse fim e pelo envolvimento de empresas de alta tecnologia em pesquisa e desenvolvimento de soluções na área. A partir de 2012, a metodologia Deep Learning passou a vencer todas as competições de reconhecimento de imagens em larga escala pela competição ImageNet, conseguindo em 2015 taxas de erro menores que as humanas, deixando as técnicas tradicionais de processamento de imagens e reconhecimento de padrões praticamente obsoletas. Analisando os resultados das competições de Robust Reading, a partir de 2017, nota-se que todas as técnicas vencedoras utilizam o Deep Learning. Observando as taxas de erro destas competições, verifica-se que elas ainda estão bem longe da taxa humana - como exemplo, a melhor precisão obtida em 2017 para localização e reconhecimento simultâneo de texto foi de 44%. Conclui-se, assim, que existe um espaço significativo para melhoria, que irá ocorrer provavelmente nos próximos três anos. Considerando esta oportunidade de mercado para tecnologias que alcancem significativa diminuição das taxas de erro em Leitura Robusta, este projeto visa analisar e testar as várias arquiteturas utilizadas nas técnicas de Deep Learning vencedoras das competições Leitura Robusta 2017, para conceber uma nova arquitetura, que seja competitiva com os sistemas estado-da-arte de Leitura Robusta. Esta nova arquitetura será avaliada e testada com os dados das competições Robust Reading Competition e utilizada para desenvolver o protótipo de duas aplicações iniciais - a leitura automática de preços de combustíveis em painéis de postos de gasolina e a leitura avançada de placas de veículos. O desenvolvimento completo dessas aplicações, bem como outras para área de logística e segurança, serão alvo de um projeto PIPE Fase 2. É esperado que o desenvolvimento de técnicas Deep Learning estado-da-arte em Leitura Robusta venha a formar o núcleo duro de competência da NeuralMind, posicionando-a como empresa de inteligência artificial em visão computacional de competitividade mundial. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:

Mais itens Menos itens

TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):

Mais itens Menos itens

VEICULO: TITULO (DATA)

URL curto