Busca avançada
Ano de início
Entree

Estudo e desenvolvimento de métodos para detecção e correção automática de erros e inconsistências em corpora sintaticamente anotados

Processo: 13/18090-6
Linha de fomento:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de janeiro de 2014
Vigência (Término): 31 de julho de 2016
Área do conhecimento:Interdisciplinar
Pesquisador responsável:Charlotte Marie Chambelland Galves
Beneficiário:Pablo Picasso Feliciano de Faria
Instituição-sede: Instituto de Estudos da Linguagem (IEL). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Vinculado ao auxílio:12/06078-9 - A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica, AP.TEM
Bolsa(s) vinculada(s):14/17172-1 - Estudo e aplicação de formalismos gramaticais explícitos na detecção de inconsistências em treebanks, BE.EP.PD
Assunto(s):Aprendizado computacional   Controle da qualidade   Linguística computacional

Resumo

Este projeto tem como objetivo central o estudo - para aplicação e avanço no desenvolvimento - de métodos computacionais utilizados para a detecção e correção automática de erros e inconsistências em corpora sintaticamente anotados (treebanks), tais como o algoritmo proposto por Kato & Matsubara (2010), baseado na Gramática Síncrona de Substituição de Árvore (Shieber & Schabes, 1990). Vinculada ao Projeto Temático "A língua portuguesa no tempo e no espaço: contato linguístico, gramáticas em competição e mudança paramétrica" (FAPESP 12/06078-9), esta pesquisa vem se somar aos esforços da frente de trabalho para ampliação e consolidação do Corpus Tycho Brahe (CTB), na medida em que o estudo será feito e aplicado sobre o corpus. Como resultado da pesquisa, espera-se (i) o desenvolvimento de um método de detecção e correção automática de inconsistências com resultados melhores que os propostos até o momento; (ii) a inclusão do método como parte do processo de anotação sintática e sua aplicação ao CTB para disponibilização de uma versão revisada do corpus (em sua extensão atual); e, finalmente, (iii) com base na análise dos principais tipos de erros recorrentes detectados pelo método, a atualização das orientações de anotação sintática para melhor preparação da equipe de revisores.