Busca avançada
Ano de início
Entree

Módulo auxiliar à descoberta de estruturas químicas na literatura: mineração de textos

Processo: 19/18378-6
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de setembro de 2019
Vigência (Término): 30 de junho de 2020
Área do conhecimento:Interdisciplinar
Pesquisador responsável:Ricardo Roberto da Silva
Beneficiário:Ana Carolina Lunardello Coelho
Instituição-sede: Faculdade de Ciências Farmacêuticas de Ribeirão Preto (FCFRP). Universidade de São Paulo (USP). Ribeirão Preto , SP, Brasil
Vinculado ao auxílio:17/18922-2 - Desenvolvimento de uma plataforma computacional modular extensível para análises de experimentos de metabolômica e metagenômica: inovando com a descoberta de novas atividades enzimáticas e produtos naturais de interesse farmacêutico derivados, AP.JP
Assunto(s):Biologia computacional   Ciência de dados   Processamento de linguagem natural   Mineração de texto   Recuperação da informação   Disseminação de informação

Resumo

O crescente acúmulo de informações na literatura científica torna a tarefa da atualização de bancos de dados um dos grandes desafios da ciência contemporânea. O objetivo dos métodos de mineração de textos é a rápida captura de informação e disponibilização de uma maneira facilmente interpretável para o usuário humano. A estratégia de disponibilizar informações de maneira facilmente interpretável possibilita a recuperação semi-automatizada de informações, superando as limitações da atualização dos bancos de dados tradicionais e a dificuldade de acompanhar a literatura científica. A possibilidade de que os usuários possam visualizar, editar e arquivar os textos encontrados em uma plataforma web de fácil acesso são essenciais para uso efetivo da informação. Durante anos a comunidade científica vem tentando formalizar a nomenclatura química, entretanto, instituições como IUPAC (International Union of Pure and Applied Chemistry), IUBMB (International Union of Biochemistry and Molecular Biology), e CAS (Chemical Abstracts Service) propuseram soluções que não são exaustivas e possuem conflitos. Um dos desafios do processamento de linguagem natural, diferente de protocolo de troca de informações entre computadores, é ser caracterizada por ambiguidade e variabilidade abruptas. As aplicações de mineração de textos são fundamentadas pela linguística, o estudo científico da linguagem. Dois dos princípios fundamentais da linguística são a estruturação em múltiplas camadas e a ambiguidade em cada camada. Topic modeling é um modelo probabilístico generativo crescentemente utilizado em mineração de textos e recuperação da informação, pela sua habilidade de processar grandes coleções de textos. Um dos modelos probabilísticos mais empregados é o Latent Dirichlet Allocation (LDA). O objetivo do presente projeto é a implementação de um método de mineração de texto, utilizando o modelo Latent Dirichlet Allocation fornecendo suporte ao projeto de mestrado associado.