Sigalei Analytics: Transformando Documentos Regulatórios em Decisões Estratégicas
Sigalei analytics: transformando documentos regulatórios em decisões estratégicas
Transformação de documentos não estruturados em dados acionáveis (MEDoRe - Extração)
Processo: | 22/10596-7 |
Modalidade de apoio: | Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE |
Data de Início da vigência: | 01 de março de 2023 |
Data de Término da vigência: | 30 de novembro de 2023 |
Área do conhecimento: | Ciências Exatas e da Terra - Ciência da Computação |
Pesquisador responsável: | Danilo Amaral de Oliveira |
Beneficiário: | Danilo Amaral de Oliveira |
Empresa: | Openlex Soluções Tecnológicas Ltda |
CNAE: |
Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet Outras atividades de prestação de serviços de informação não especificadas anteriormente |
Município: | São Carlos |
Pesquisadores principais: | Bruno Squizato Faiçal ; Ivan Ervolino |
Pesquisadores associados: | Frederico Amaral de Oliveira |
Auxílio(s) vinculado(s): | 23/16491-5 - Sigalei Analytics: Transformando Documentos Regulatórios em Decisões Estratégicas, AP.PIPE |
Bolsa(s) vinculada(s): | 23/06198-9 - Coleta e armazenamento de diários oficiais,
BP.TT 23/01658-1 - Expansão das funcionalidades do MEDoRe, BP.TT 23/02098-0 - Mecanismo para Extração de Documentos Regulatórios (MEDoRe), BP.PIPE |
Assunto(s): | Dados abertos Documentos oficiais Processamento de texto Formato de arquivo |
Palavra(s)-Chave do Pesquisador: | Dados Abertos | Detecção de texto | Diário Oficial | Documentos regulatórios | Extração de texto | Detecção e extração de texto |
Resumo
O Brasil é reconhecidamente um país com ambiente complexo para realização de negócios. Um dos principais motivos é a alta complexidade gerada no ambiente regulatório. Aliado a complexidade, o governo não possui maturidade para padronizar e estruturar os dados governamentais para facilitar a sua compreensão. A maior parte do grande volume de dados gerados são diariamente dados não estruturados e devido ao enorme volume destes dados, o monitoramento e análise manual das decisões governamentais de forma eficaz é uma tarefa impraticável. Entre os variados tipos de dados gerados estão os diários oficiais, os quais possuem grande valor informativo dos atos governamentais para a sociedade e empresas. Os diários oficiais permitem que os atos, decisões e propostas realizadas pelos órgãos públicos sejam disponibilizadas publicamente e assim as decisões governamentais sejam cumpridas e, de maneira democrática, a sociedade e empresas possam monitorar ou participar delas. Os Diários Oficiais são divulgados diariamente nas esferas municipais, estaduais e federal. Estes documentos são amplamente disponibilizados em formato PDF, ressaltando que apenas o Diário Oficial da União (DOU) também é disponibilizado seguindo as diretrizes dos dados abertos de forma alternativa ao PDF. O PDF é um formato de documento para apresentação final, o qual preserva a disposição original do documento, mas comumente não mantém a estrutura lógica do documento. Esse é um dos motivos pela qual a Cartilha Técnica para Publicação de Dados Abertos no Brasil orienta que os documentos regulatórios devem ser disponibilizados em formatos com especificações aberta, não proprietária, e estruturado para que seja possível o uso irrestrito e automatizado. A Secretaria de Logística e Tecnologia da Informação (SLTI) tem conhecimento que o uso do formato PDF é inadequado e isso é um erro recorrente cometido por diversos órgãos públicos e ressalta que o uso do formato PDF inviabiliza, ou dificulta, a reutilização dos dados por não permitir a sua reutilização automatizada. A disponibilização de documentos regulatórios em formatos não estruturados é um obstáculo à reutilização automatizada dos dados para ampla divulgação, processamento, curadoria e extração de informações. É importante que empresas e profissionais estejam atualizados sobre decisões e informações oficiais para tomada de decisões estratégicas em suas respectivas áreas de atuação. Para isso, é necessário um mecanismo capaz de processar o grande volume de dados governamentais disponibilizados para extrair os documentos regulatórios em formatos não estruturados e disponibilizá-los em um formato estruturado, tal como json. Este é um formato aberto e capaz de ser interpretado por softwares, o que permite a apresentação dos documentos regulatórios por aplicações para especialistas e o processamento automatizado. Para superar tal obstáculo, propomos um mecanismo de processamento baseado em visão computacional e extração de textos de imagens. Nesse sentido, espera-se identificar visualmente regiões que se referem a documentos regulatórios incorporados nos Diários e extraí-los como texto puro. Posteriormente, os documentos regulatórios são classificados de acordo com a classe que pertence (por exemplo, lei, decreto ou resolução). Por fim são estruturados no padrão json e armazenados na infraestrutura disponibilizada pela empresa sede. O acesso para armazenamento e consumo dos dados estruturados será realizado através de uma API já desenvolvida pela empresa. (AU)
Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
Mais itensMenos itens |
TITULO |
Matéria(s) publicada(s) em Outras Mídias ( ): |
Mais itensMenos itens |
VEICULO: TITULO (DATA) |
VEICULO: TITULO (DATA) |