Busca avançada
Ano de início
Entree

Expansão das funcionalidades do MEDoRe

Processo: 23/01658-1
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Data de Início da vigência: 01 de março de 2023
Data de Término da vigência: 30 de novembro de 2023
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Danilo Amaral de Oliveira
Beneficiário:Mariana Mulinari Pinheiro Machado
CNAE: Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet
Outras atividades de prestação de serviços de informação não especificadas anteriormente
Vinculado ao auxílio:22/10596-7 - Mecanismo para extração de documentos regulatórios (MEDoRe), AP.PIPE
Assunto(s):Visão computacional   Ciência de dados
Palavra(s)-Chave do Pesquisador:Documentos regulatórios | Visão Computacional | Ciência de Dados

Resumo

O Brasil é reconhecidamente um país com ambiente complexo para realização de negócios. Um dos principais motivos é a alta complexidade gerada no ambiente regulatório. Aliado a complexidade, o governo não possui maturidade para padronizar e estruturar os dados governamentais para facilitar a sua compreensão. A maior parte do grande volume de dados gerados diariamente são dados não estruturados} e devido ao enorme volume destes dados, o monitoramento e análise manual das decisões governamentais de forma eficaz é uma tarefa impraticável. Entre os variados tipos de dados gerados estão os diários oficiais, os quais possuem grande valor informativo dos atos governamentais para a sociedade e empresas. Os diários oficiais permitem que os atos, decisões e propostas realizadas pelos órgãos públicos sejam disponibilizadas publicamente e assim as decisões governamentais sejam cumpridas e, de maneira democrática, a sociedade e empresas possam monitorar ou participar delas. Os Diários Oficiais são divulgados diariamente nas esferas municipais, estaduais e federal. Estes documentos são amplamente disponibilizados em formato PDF, ressaltando que apenas o Diário Oficial da União (DOU) também é disponibilizado seguindo as diretrizes dos dados abertos de forma alternativa ao PDF. O PDF é um formato de documento para apresentação final, o qual preserva a disposição original do documento, mas comumente não mantém a estrutura lógica do documento. Esse é um dos motivos pela qual a Cartilha Técnica para Publicação de Dados Abertos no Brasil orienta que os documentos regulatórios devem ser disponibilizados em formatos com especificações aberta, não proprietária, e estruturado para que seja possível o uso irrestrito e automatizado. A Secretaria de Logística e Tecnologia da Informação (SLTI tem conhecimento que o uso do formato PDF é inadequado e isso é um erro recorrente cometido por diversos órgãos públicos e ressalta que o uso do formato PDF inviabiliza, ou dificulta, a reutilização dos dados por não permitir a sua reutilização automatizada. A disponibilização de documentos regulatórios em formatos não estruturados é um obstáculo à reutilização automatizada dos dados para ampla divulgação, processamento, curadoria e extração de informações. É importante que empresas e profissionais estejam atualizados sobre decisões e informações oficiais para tomada de decisões estratégicas em suas respectivas áreas de atuação. Para isso, é necessário um mecanismo capaz de processar o grande volume de dados governamentais disponibilizados para extrair os documentos regulatórios em formatos não estruturados e disponibilizá-los em um formato estruturado, tal como json. Este é um formato aberto e capaz de ser interpretado por softwares, o que permite a apresentação dos documentos regulatórios por aplicações para especialistas e o processamento automatizado. Para superar tal obstáculo, propomos um mecanismo de processamento baseado em visão computacional e extração de textos de imagens. Nesse sentido, espera-se identificar visualmente regiões que se referem a documentos regulatórios incorporados nos Diários e extraí-los como texto puro. Posteriormente, os documentos regulatórios são classificados de acordo com a classe que pertence (por exemplo, lei, decreto ou resolução). Por fim são estruturados no padrão json e armazenados na infraestrutura disponibilizada pela empresa sede. O acesso para armazenamento e consumo dos dados estruturados será realizado através de uma API já desenvolvida pela empresa.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)