Bolsa 19/18378-6 - Biologia computacional, Ciência de dados

Processo:	19/18378-6
Modalidade de apoio:	Bolsas no Brasil - Iniciação Científica
Data de Início da vigência:	01 de setembro de 2019
Data de Término da vigência:	30 de junho de 2020
Área de conhecimento:	Interdisciplinar

Pesquisador responsável:	Ricardo Roberto da Silva
Beneficiário:	Ana Carolina Lunardello Coelho

Instituição Sede:	Faculdade de Ciências Farmacêuticas de Ribeirão Preto (FCFRP). Universidade de São Paulo (USP). Ribeirão Preto , SP, Brasil

Vinculado ao auxílio:	17/18922-2 - Desenvolvimento de uma plataforma computacional modular extensível para análises de experimentos de metabolômica e metagenômica: inovando com a descoberta de novas atividades enzimáticas e produtos naturais de interesse farmacêutico derivados, AP.BTA.JP


Assunto(s):	Biologia computacional Ciência de dados Processamento de linguagem natural Mineração de texto Recuperação da informação Disseminação de informação
Palavra(s)-Chave do Pesquisador:	Ciência dos Dados \| Mineração de Textos \| Produtos Naturais \| quimioinformática \| Bioinformática, Ciência dos Dados
Resumo O crescente acúmulo de informações na literatura científica torna a tarefa da atualização de bancos de dados um dos grandes desafios da ciência contemporânea. O objetivo dos métodos de mineração de textos é a rápida captura de informação e disponibilização de uma maneira facilmente interpretável para o usuário humano. A estratégia de disponibilizar informações de maneira facilmente interpretável possibilita a recuperação semi-automatizada de informações, superando as limitações da atualização dos bancos de dados tradicionais e a dificuldade de acompanhar a literatura científica. A possibilidade de que os usuários possam visualizar, editar e arquivar os textos encontrados em uma plataforma web de fácil acesso são essenciais para uso efetivo da informação. Durante anos a comunidade científica vem tentando formalizar a nomenclatura química, entretanto, instituições como IUPAC (International Union of Pure and Applied Chemistry), IUBMB (International Union of Biochemistry and Molecular Biology), e CAS (Chemical Abstracts Service) propuseram soluções que não são exaustivas e possuem conflitos. Um dos desafios do processamento de linguagem natural, diferente de protocolo de troca de informações entre computadores, é ser caracterizada por ambiguidade e variabilidade abruptas. As aplicações de mineração de textos são fundamentadas pela linguística, o estudo científico da linguagem. Dois dos princípios fundamentais da linguística são a estruturação em múltiplas camadas e a ambiguidade em cada camada. Topic modeling é um modelo probabilístico generativo crescentemente utilizado em mineração de textos e recuperação da informação, pela sua habilidade de processar grandes coleções de textos. Um dos modelos probabilísticos mais empregados é o Latent Dirichlet Allocation (LDA). O objetivo do presente projeto é a implementação de um método de mineração de texto, utilizando o modelo Latent Dirichlet Allocation fornecendo suporte ao projeto de mestrado associado.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itens Menos itens
TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itens Menos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

URL curto