Busca avançada
Ano de início
Entree

Pós-edição automática e semanticamente motivada de traduções em Português do Brasil

Processo: 16/21317-0
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de março de 2017
Data de Término da vigência: 31 de dezembro de 2018
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Helena de Medeiros Caseli
Beneficiário:Marcio Lima Inácio
Instituição Sede: Centro de Ciências Exatas e de Tecnologia (CCET). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Tradução automática   Português do Brasil   Processamento de linguagem natural   Semântica
Palavra(s)-Chave do Pesquisador:Deep Learning | Modelos de semântica distribucional | Português do Brasil | Pós-edição automática | Representação semântica distribuída | Tradução automática | Processamento de Língua Natural

Resumo

A Tradução Automática (TA) é uma das aplicações (e subáreas) mais importantes do Processamento de Línguas Naturais (PLN). Na TA, sistemas computacionais são utilizados para gerar uma versão equivalente, em um idioma alvo, de um texto fornecido como entrada, em um idioma fonte. Após mais de 70 anos de pesquisas em TA e de várias abordagens terem sido propostas e aplicadas -- como a TA baseada em regras, a TA estatística e a TA neural -- ainda não foi possível alcançar as ambiciosas metas de seu surgimento: produzir traduções completamente automáticas de boa qualidade para domínios irrestritos. Por isso, as traduções geradas automaticamente são, via de regra, pós-editadas por humanos para que se tornem corretas e fluentes na língua alvo. Contudo, a pós-edição manual é um processo árduo e que demanda esforço especializado. Nesse contexto, diversas propostas para automatização da pós-edição têm surgido nos últimos anos. Neste projeto visa-se investigar especificamente a pós-edição automática baseada em conhecimento semântico. Uma das formas mais tradicionais de representação de semântica textual se baseia na hipótese distribucional a qual considera o contexto de ocorrência das palavras. Essas informações de contexto podem ser mapeadas nos chamados modelos de semântica distribucional (do inglês, distributional semantic models ou DSMs). Nos DSMs, as palavras são representadas como vetores em um espaço de alta dimensão que relaciona palavras com seus contextos de ocorrência. Assim, este projeto visa verificar como os DSMs podem ser aplicados para a pós-edição automática da TA. Esta proposta está vinculada ao projeto MMeaning (Auxílio Regular FAPESP #2016/13002-0). (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
CASELI, HELENA DE MEDEIROS; INACIO, MARCIO LIMA; CALZOLARI, N; BECHET, F; BLACHE, P; CHOUKRI, K; CIERI, C; DECLERCK, T; GOGGI, S; ISAHARA, H; et al. NMT and PBSMT Error Analyses in English to Brazilian Portuguese Automatic Translations. PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC 2020), v. N/A, p. 7-pg., . (16/21317-0, 16/13002-0)
INACIO, MARCIO LIMA; CASELI, HELENA DE MEDEIROS; QUARESMA, P; VIEIRA, R; ALUISIO, S; MONIZ, H; BATISTA, F; GONCALVES, T. Word Embeddings at Post-Editing. COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, PROPOR 2020, v. 12037, p. 12-pg., . (16/21317-0, 16/13002-0)