Busca avançada
Ano de início
Entree

Pós-edição automática e semanticamente motivada de traduções em Português do Brasil

Processo: 16/21317-0
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de março de 2017
Vigência (Término): 31 de dezembro de 2018
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Helena de Medeiros Caseli
Beneficiário:Marcio Lima Inácio
Instituição-sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Tradução automática   Português do Brasil   Processamento de linguagem natural   Semântica

Resumo

A Tradução Automática (TA) é uma das aplicações (e subáreas) mais importantes do Processamento de Línguas Naturais (PLN). Na TA, sistemas computacionais são utilizados para gerar uma versão equivalente, em um idioma alvo, de um texto fornecido como entrada, em um idioma fonte. Após mais de 70 anos de pesquisas em TA e de várias abordagens terem sido propostas e aplicadas -- como a TA baseada em regras, a TA estatística e a TA neural -- ainda não foi possível alcançar as ambiciosas metas de seu surgimento: produzir traduções completamente automáticas de boa qualidade para domínios irrestritos. Por isso, as traduções geradas automaticamente são, via de regra, pós-editadas por humanos para que se tornem corretas e fluentes na língua alvo. Contudo, a pós-edição manual é um processo árduo e que demanda esforço especializado. Nesse contexto, diversas propostas para automatização da pós-edição têm surgido nos últimos anos. Neste projeto visa-se investigar especificamente a pós-edição automática baseada em conhecimento semântico. Uma das formas mais tradicionais de representação de semântica textual se baseia na hipótese distribucional a qual considera o contexto de ocorrência das palavras. Essas informações de contexto podem ser mapeadas nos chamados modelos de semântica distribucional (do inglês, distributional semantic models ou DSMs). Nos DSMs, as palavras são representadas como vetores em um espaço de alta dimensão que relaciona palavras com seus contextos de ocorrência. Assim, este projeto visa verificar como os DSMs podem ser aplicados para a pós-edição automática da TA. Esta proposta está vinculada ao projeto MMeaning (Auxílio Regular FAPESP #2016/13002-0). (AU)