Busca avançada
Ano de início
Entree

Leitura robusta de documentos cadastrais usando Deep Learning

Processo: 19/06667-3
Linha de fomento:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Vigência: 01 de março de 2020 - 28 de fevereiro de 2022
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Roberto de Alencar Lotufo
Beneficiário:Roberto de Alencar Lotufo
Empresa:Neuralmind Inteligência Artificial Ltda
CNAE: Desenvolvimento e licenciamento de programas de computador customizáveis
Município: Campinas
Pesq. associados: Rodrigo Frassetto Nogueira ; Rubens Campos Machado
Vinculado ao auxílio:18/01188-7 - Sistema para leitura robusta de textos em imagens utilizando deep learning, AP.PIPE
Bolsa(s) vinculada(s):20/04829-3 - Proposta de arquitetura end-to-end para Leitura Robusta de documentos cadastrais, BP.TT
20/04814-6 - Geração e sintetização de documentos cadastrais usando generative adversarial networks, BP.TT
Assunto(s):Aprendizado computacional  Inteligência artificial  Aprendizagem profunda  Comunicação escrita  Análise de texto  Leitura  Documentos 

Resumo

A leitura automática de texto em imagens desperta interesse crescente por viabilizar um grande número de aplicações comerciais tais como: automatização de cadastros e matrículas baseados em informações relevantes de documentos cadastrais, consultas instantâneas a serviços de fiscalização; checagem e estruturação semi-supervisionada em prestação de contas, auxílio na vigilância com reconhecimento de placas de veículos e de sinalização, reconhecimento de números de série de contêineres, embalagens, etc.; entre outros. Leitura Robusta (Robust Reading) representa a área de pesquisa relacionada à interpretação de comunicação escrita em ambientes sem restrições. O grande interesse nesta área pode ser comprovado pelo aumento recente de desafios na Robust Reading Competition, uma das diversas competições realizadas durante a Conferência Internacional de Análise e Reconhecimento de Documentos (ICDAR). Em sua sétima edição, a competição de leitura robusta da ICDAR de 2019 abrange seis desafios, cinco deles introduzidos nesta edição. Um desses desafios, envolvendo OCR e extração de informações de recibos digitalizados, desperta o nosso interesse. Localização e classificação de caracteres, bem como reconhecimento de palavras em imagens, são temas cuja relevância tem sido evidenciada pela comunidade científica desde a década de 80. Embora seja um problema investigado há muito tempo, há grande necessidade de mercado para aplicações que consigam taxas de erro inferiores às humanas, o que é atestado pelo aumento recente das competições dedicadas a desenvolver soluções tecnológicas mais eficazes e eficientes para esse fim e pelo envolvimento de empresas de alta tecnologia na pesquisa e no desenvolvimento de soluções na área. A partir de 2012, a metodologia Deep Learning passou a vencer todas as competições de classificação de imagens em larga escala como ImageNet, conseguindo em 2015 taxas de erro menores que as humanas, deixando técnicas tradicionais de processamento de imagens e reconhecimento de padrões praticamente obsoletas.Apenas em 2017, Deep Learning passou a estar presente em todas as soluções vencedoras dos desafios da competição de leitura robusta. Entretanto, a melhor precisão obtida na edição para localização e reconhecimento simultâneos de texto foi de 44%. As taxas de erro destas soluções estão bem longe da taxa humana. Logo, conclui-se que existe um espaço significativo para melhoria, que irá ocorrer provavelmente nos próximos dois anos. Considerando esta oportunidade de mercado para tecnologias que alcancem significativa diminuição das taxas de erro em Leitura Robusta - além da experiência adquirida por nossa equipe em análise, implementação, prototipação e validação das abordagens propostas recentemente - este projeto visa estender a Fase 1 através da concepção de um novas arquiteturas end-to-end competitivas com o atual estado da arte em leitura robusta de documentos. Na Fase 2, almejamos ampliar a equipe de pesquisa criando um núcleo forte disposto a desenvolver uma classe de algoritmos de OCR da NeuralMind: um modelo que seja eficaz e confiável, reconhecendo dados cadastrais com o mínimo de erro possível; eficiente, exigindo o mínimo de parâmetros e viabilizando sua utilização em dispositivos móveis; robusto, isto é operando em diferentes condições de iluminação e conservação do documento; e por fim escalável, de modo a atender vários documentos sem necessidade de re-configurações. Além disso, unindo todos os atributos de nosso modelo, ambicionamos em não apenas detectar e reconhecer textos em documentos cadastrais, como também inferir, em uma única passada, informações semânticas que permitam classificar a categoria do campo, resultando em uma abordagem unificada para qualquer tipo de documento cadastral. Este projeto posicionará a NeuralMind como empresa de competitividade mundial na área de digitalização, reconhecimento e leitura de documentos utilizando inteligência artificial. (AU)