| Processo: | 19/18378-6 |
| Modalidade de apoio: | Bolsas no Brasil - Iniciação Científica |
| Data de Início da vigência: | 01 de setembro de 2019 |
| Data de Término da vigência: | 30 de junho de 2020 |
| Área de conhecimento: | Interdisciplinar |
| Pesquisador responsável: | Ricardo Roberto da Silva |
| Beneficiário: | Ana Carolina Lunardello Coelho |
| Instituição Sede: | Faculdade de Ciências Farmacêuticas de Ribeirão Preto (FCFRP). Universidade de São Paulo (USP). Ribeirão Preto , SP, Brasil |
| Vinculado ao auxílio: | 17/18922-2 - Desenvolvimento de uma plataforma computacional modular extensível para análises de experimentos de metabolômica e metagenômica: inovando com a descoberta de novas atividades enzimáticas e produtos naturais de interesse farmacêutico derivados, AP.BTA.JP |
| Assunto(s): | Biologia computacional Ciência de dados Processamento de linguagem natural Mineração de texto Recuperação da informação Disseminação de informação |
| Palavra(s)-Chave do Pesquisador: | Ciência dos Dados | Mineração de Textos | Produtos Naturais | quimioinformática | Bioinformática, Ciência dos Dados |
Resumo O crescente acúmulo de informações na literatura científica torna a tarefa da atualização de bancos de dados um dos grandes desafios da ciência contemporânea. O objetivo dos métodos de mineração de textos é a rápida captura de informação e disponibilização de uma maneira facilmente interpretável para o usuário humano. A estratégia de disponibilizar informações de maneira facilmente interpretável possibilita a recuperação semi-automatizada de informações, superando as limitações da atualização dos bancos de dados tradicionais e a dificuldade de acompanhar a literatura científica. A possibilidade de que os usuários possam visualizar, editar e arquivar os textos encontrados em uma plataforma web de fácil acesso são essenciais para uso efetivo da informação. Durante anos a comunidade científica vem tentando formalizar a nomenclatura química, entretanto, instituições como IUPAC (International Union of Pure and Applied Chemistry), IUBMB (International Union of Biochemistry and Molecular Biology), e CAS (Chemical Abstracts Service) propuseram soluções que não são exaustivas e possuem conflitos. Um dos desafios do processamento de linguagem natural, diferente de protocolo de troca de informações entre computadores, é ser caracterizada por ambiguidade e variabilidade abruptas. As aplicações de mineração de textos são fundamentadas pela linguística, o estudo científico da linguagem. Dois dos princípios fundamentais da linguística são a estruturação em múltiplas camadas e a ambiguidade em cada camada. Topic modeling é um modelo probabilístico generativo crescentemente utilizado em mineração de textos e recuperação da informação, pela sua habilidade de processar grandes coleções de textos. Um dos modelos probabilísticos mais empregados é o Latent Dirichlet Allocation (LDA). O objetivo do presente projeto é a implementação de um método de mineração de texto, utilizando o modelo Latent Dirichlet Allocation fornecendo suporte ao projeto de mestrado associado. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |