Scholarship 23/01658-1 - Visão computacional, Ciência de dados

Grant number:	23/01658-1
Support Opportunities:	Scholarships in Brazil - Technical Training Program - Technical Training
Start date:	March 01, 2023
End date:	November 30, 2023
Field of knowledge:	Physical Sciences and Mathematics - Computer Science

Principal Investigator:	Danilo Amaral de Oliveira
Grantee:	Mariana Mulinari Pinheiro Machado

CNAE:	Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet Outras atividades de prestação de serviços de informação não especificadas anteriormente

Associated research grant:	22/10596-7 - Regulatory document extraction engine (MEDoRe), AP.PIPE


Abstract O Brasil é reconhecidamente um país com ambiente complexo para realização de negócios. Um dos principais motivos é a alta complexidade gerada no ambiente regulatório. Aliado a complexidade, o governo não possui maturidade para padronizar e estruturar os dados governamentais para facilitar a sua compreensão. A maior parte do grande volume de dados gerados diariamente são dados não estruturados} e devido ao enorme volume destes dados, o monitoramento e análise manual das decisões governamentais de forma eficaz é uma tarefa impraticável. Entre os variados tipos de dados gerados estão os diários oficiais, os quais possuem grande valor informativo dos atos governamentais para a sociedade e empresas. Os diários oficiais permitem que os atos, decisões e propostas realizadas pelos órgãos públicos sejam disponibilizadas publicamente e assim as decisões governamentais sejam cumpridas e, de maneira democrática, a sociedade e empresas possam monitorar ou participar delas. Os Diários Oficiais são divulgados diariamente nas esferas municipais, estaduais e federal. Estes documentos são amplamente disponibilizados em formato PDF, ressaltando que apenas o Diário Oficial da União (DOU) também é disponibilizado seguindo as diretrizes dos dados abertos de forma alternativa ao PDF. O PDF é um formato de documento para apresentação final, o qual preserva a disposição original do documento, mas comumente não mantém a estrutura lógica do documento. Esse é um dos motivos pela qual a Cartilha Técnica para Publicação de Dados Abertos no Brasil orienta que os documentos regulatórios devem ser disponibilizados em formatos com especificações aberta, não proprietária, e estruturado para que seja possível o uso irrestrito e automatizado. A Secretaria de Logística e Tecnologia da Informação (SLTI tem conhecimento que o uso do formato PDF é inadequado e isso é um erro recorrente cometido por diversos órgãos públicos e ressalta que o uso do formato PDF inviabiliza, ou dificulta, a reutilização dos dados por não permitir a sua reutilização automatizada. A disponibilização de documentos regulatórios em formatos não estruturados é um obstáculo à reutilização automatizada dos dados para ampla divulgação, processamento, curadoria e extração de informações. É importante que empresas e profissionais estejam atualizados sobre decisões e informações oficiais para tomada de decisões estratégicas em suas respectivas áreas de atuação. Para isso, é necessário um mecanismo capaz de processar o grande volume de dados governamentais disponibilizados para extrair os documentos regulatórios em formatos não estruturados e disponibilizá-los em um formato estruturado, tal como json. Este é um formato aberto e capaz de ser interpretado por softwares, o que permite a apresentação dos documentos regulatórios por aplicações para especialistas e o processamento automatizado. Para superar tal obstáculo, propomos um mecanismo de processamento baseado em visão computacional e extração de textos de imagens. Nesse sentido, espera-se identificar visualmente regiões que se referem a documentos regulatórios incorporados nos Diários e extraí-los como texto puro. Posteriormente, os documentos regulatórios são classificados de acordo com a classe que pertence (por exemplo, lei, decreto ou resolução). Por fim são estruturados no padrão json e armazenados na infraestrutura disponibilizada pela empresa sede. O acesso para armazenamento e consumo dos dados estruturados será realizado através de uma API já desenvolvida pela empresa.

News published in Agência FAPESP Newsletter about the scholarship:
More items Less items
TITULO

Articles published in other media outlets ( ):
More items Less items
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Short URL