Busca avançada
Ano de início
Entree

Coleta e armazenamento de diários oficiais

Processo: 23/06198-9
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Data de Início da vigência: 01 de junho de 2023
Data de Término da vigência: 30 de novembro de 2023
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Danilo Amaral de Oliveira
Beneficiário:Rodolfo Murilo Barbosa Moura
CNAE: Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet
Outras atividades de prestação de serviços de informação não especificadas anteriormente
Vinculado ao auxílio:22/10596-7 - Mecanismo para extração de documentos regulatórios (MEDoRe), AP.PIPE
Assunto(s):Dados
Palavra(s)-Chave do Pesquisador:Data Modeling | Data Scraping | Dados

Resumo

Os diários oficiais são as principais fontes de informação para a sociedade e empresas sobre as decisões e atuações nos órgãos governamentais. Os diários oficiais divulga um grande volume de documentos regulatórios das esferas federal, estadual e municipal diariamente. Com exceção do diário oficial federal, os demais diários oficiais são divulgados em formato não interpretável por software (em formato PDF). Para superar o obstáculo de processar de maneira confiável e automatizada o grande volume de documentos regulatórios publicados diariamente é proposto o Mecanismo de Extração de Documentos Regulatórios (MEDoRe).Para o MEDoRe ser desenvolvido é necessário ter disponíveis os diários oficiais para processamento. Define-se como "disponíveis" os arquivos dos diários oficiais coletados dos portais de divulgação e armazenados em estrutura interna da Sigalei (empresa sede). Estes arquivos serão usados para construir datasets contendo amostras visuais do que são documentos regulatórios, para que métodos baseados em Redes Neurais Convolucional (do inglês, Convolutional Neural Network - CNN) possam ser treinados e gerar modelos para identificação visual de documentos regulatórios. É importante ressaltar que não existe um padrão de layout para os diários oficiais, assim é necessário ter a maior diversificação possível dos diários oficiais.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)