| Processo: | 13/18090-6 |
| Modalidade de apoio: | Bolsas no Brasil - Pós-Doutorado |
| Data de Início da vigência: | 01 de janeiro de 2014 |
| Data de Término da vigência: | 31 de julho de 2016 |
| Área de conhecimento: | Interdisciplinar |
| Pesquisador responsável: | Charlotte Marie Chambelland Galves |
| Beneficiário: | Pablo Picasso Feliciano de Faria |
| Instituição Sede: | Instituto de Estudos da Linguagem (IEL). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil |
| Vinculado ao auxílio: | 12/06078-9 - A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica, AP.TEM |
| Bolsa(s) vinculada(s): | 14/17172-1 - Estudo e aplicação de formalismos gramaticais explícitos na detecção de inconsistências em treebanks, BE.EP.PD |
| Assunto(s): | Aprendizado computacional Controle da qualidade Linguística computacional |
| Palavra(s)-Chave do Pesquisador: | Aprendizagem de Maquina | controle de qualidade | Corpus sintaticamente anotado | correção automática | detecção de anomalia | Gramática de Adjunção de Ávore | Linguística Computacional |
Resumo Este projeto tem como objetivo central o estudo - para aplicação e avanço no desenvolvimento - de métodos computacionais utilizados para a detecção e correção automática de erros e inconsistências em corpora sintaticamente anotados (treebanks), tais como o algoritmo proposto por Kato & Matsubara (2010), baseado na Gramática Síncrona de Substituição de Árvore (Shieber & Schabes, 1990). Vinculada ao Projeto Temático "A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica" (FAPESP 12/06078-9), esta pesquisa vem se somar aos esforços da frente de trabalho para ampliação e consolidação do Corpus Tycho Brahe (CTB), na medida em que o estudo será feito e aplicado sobre o corpus. Como resultado da pesquisa, espera-se (i) o desenvolvimento de um método de detecção e correção automática de inconsistências com resultados melhores que os propostos até o momento; (ii) a inclusão do método como parte do processo de anotação sintática e sua aplicação ao CTB para disponibilização de uma versão revisada do corpus (em sua extensão atual); e, finalmente, (iii) com base na análise dos principais tipos de erros recorrentes detectados pelo método, a atualização das orientações de anotação sintática para melhor preparação da equipe de revisores. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |