| Grant number: | 23/01658-1 |
| Support Opportunities: | Scholarships in Brazil - Technical Training Program - Technical Training |
| Start date: | March 01, 2023 |
| End date: | November 30, 2023 |
| Field of knowledge: | Physical Sciences and Mathematics - Computer Science |
| Principal Investigator: | Danilo Amaral de Oliveira |
| Grantee: | Mariana Mulinari Pinheiro Machado |
| CNAE: |
Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet Outras atividades de prestação de serviços de informação não especificadas anteriormente |
| Associated research grant: | 22/10596-7 - Regulatory document extraction engine (MEDoRe), AP.PIPE |
Abstract O Brasil é reconhecidamente um país com ambiente complexo para realização de negócios. Um dos principais motivos é a alta complexidade gerada no ambiente regulatório. Aliado a complexidade, o governo não possui maturidade para padronizar e estruturar os dados governamentais para facilitar a sua compreensão. A maior parte do grande volume de dados gerados diariamente são dados não estruturados} e devido ao enorme volume destes dados, o monitoramento e análise manual das decisões governamentais de forma eficaz é uma tarefa impraticável. Entre os variados tipos de dados gerados estão os diários oficiais, os quais possuem grande valor informativo dos atos governamentais para a sociedade e empresas. Os diários oficiais permitem que os atos, decisões e propostas realizadas pelos órgãos públicos sejam disponibilizadas publicamente e assim as decisões governamentais sejam cumpridas e, de maneira democrática, a sociedade e empresas possam monitorar ou participar delas. Os Diários Oficiais são divulgados diariamente nas esferas municipais, estaduais e federal. Estes documentos são amplamente disponibilizados em formato PDF, ressaltando que apenas o Diário Oficial da União (DOU) também é disponibilizado seguindo as diretrizes dos dados abertos de forma alternativa ao PDF. O PDF é um formato de documento para apresentação final, o qual preserva a disposição original do documento, mas comumente não mantém a estrutura lógica do documento. Esse é um dos motivos pela qual a Cartilha Técnica para Publicação de Dados Abertos no Brasil orienta que os documentos regulatórios devem ser disponibilizados em formatos com especificações aberta, não proprietária, e estruturado para que seja possível o uso irrestrito e automatizado. A Secretaria de Logística e Tecnologia da Informação (SLTI tem conhecimento que o uso do formato PDF é inadequado e isso é um erro recorrente cometido por diversos órgãos públicos e ressalta que o uso do formato PDF inviabiliza, ou dificulta, a reutilização dos dados por não permitir a sua reutilização automatizada. A disponibilização de documentos regulatórios em formatos não estruturados é um obstáculo à reutilização automatizada dos dados para ampla divulgação, processamento, curadoria e extração de informações. É importante que empresas e profissionais estejam atualizados sobre decisões e informações oficiais para tomada de decisões estratégicas em suas respectivas áreas de atuação. Para isso, é necessário um mecanismo capaz de processar o grande volume de dados governamentais disponibilizados para extrair os documentos regulatórios em formatos não estruturados e disponibilizá-los em um formato estruturado, tal como json. Este é um formato aberto e capaz de ser interpretado por softwares, o que permite a apresentação dos documentos regulatórios por aplicações para especialistas e o processamento automatizado. Para superar tal obstáculo, propomos um mecanismo de processamento baseado em visão computacional e extração de textos de imagens. Nesse sentido, espera-se identificar visualmente regiões que se referem a documentos regulatórios incorporados nos Diários e extraí-los como texto puro. Posteriormente, os documentos regulatórios são classificados de acordo com a classe que pertence (por exemplo, lei, decreto ou resolução). Por fim são estruturados no padrão json e armazenados na infraestrutura disponibilizada pela empresa sede. O acesso para armazenamento e consumo dos dados estruturados será realizado através de uma API já desenvolvida pela empresa. | |
| News published in Agência FAPESP Newsletter about the scholarship: | |
| More itemsLess items | |
| TITULO | |
| Articles published in other media outlets ( ): | |
| More itemsLess items | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |