Pós-edição automática e semanticamente motivada de traduções em Português do Brasil
Investigação de técnicas de alinhamento textual para a tradução automática estatís...
Realização Textual baseada em Geração Permissiva e Seleção Estatística
Processo: | 12/02131-2 |
Modalidade de apoio: | Auxílio à Pesquisa - Pesquisador Visitante - Internacional |
Data de Início da vigência: | 06 de maio de 2012 |
Data de Término da vigência: | 30 de novembro de 2012 |
Área do conhecimento: | Ciências Exatas e da Terra - Ciência da Computação |
Pesquisador responsável: | Renata Wassermann |
Beneficiário: | Renata Wassermann |
Pesquisador visitante: | Marta Ruiz Costa-Jussa |
Instituição do Pesquisador Visitante: | Barcelona Media (BM), Espanha |
Instituição Sede: | Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil |
Assunto(s): | Inteligência artificial Processamento de linguagem natural Tradução automática |
Palavra(s)-Chave do Pesquisador: | Consulta Semântica | Processamento de Linguagem Natural | Tradução automática | Inteligência Artificial - Processamento de Linguagem Natural |
Resumo
A relevância da recuperação da informação multilíngue reside na presença de mais e mais línguas em diferentes plataformas. Torna-se mais comum que indivíduos para explorem conjuntos de textos multilíngues. Esta área de pesquisa é chamada de Recuperação de Informação Cross-lingual (CLIR), que é a circunstância em que um usuário tenta recuperar informações em um conjunto de documentos escritos em uma linguagem através de uma consulta em outro idioma. No contexto CLIR, este projeto pretende investigar novos métodos linguísticos para tradução automática estatística (SMT) que maximizam a qualidade da tradução da consulta. Este projeto seria desenvolvido no contexto do Projeto OnAir (FAPESP2010/19111-9), que se concentra em facilitar a tarefa de buscar informações em vídeos longos português ou em inglês. Por um lado, a natureza das consultas é significativamente diferente do paradigma texto que é o objetivo dos sistemas de tradução automática. A motivação para a tradução de consulta encontra-se na tradução de termos específicos do domínio e isolado. Ao traduzir consultas, temos pouca ou nenhuma informação adicional sobre o contexto. Assim, os métodos padrão de tradução automática podem produzir um desempenho ruim. Por outro lado, devemos levar em conta que a área de tradução automática é altamente interdisciplinar e multidisciplinar uma vez que é abordada a partir do ponto de vista de tradutores, engenheiros, cientistas da computação, matemáticos e linguistas. Portanto, aproveitando isso, o objetivo principal do projeto é explorar diferentes técnicas de linguística e estatística (dando ênfase à morfologia e semântica) para serem utilizadas em um sistema de tradução automática estatística do estado da arte, a fim de traduzir corretamente consultas. Um dos principais problemas na tradução automática é ser capaz de escolher o significado correto, que envolve um problema de classificação ou de desambiguação. Ao mesmo tempo, um dos aspectos mais importantes da tradução de consultas é para superar o aspecto semântico da tradução. Além disso, a morfologia pode ser uma barreira para desambiguação semântica. Portanto, neste projeto iremos introduzir ferramentas de morfologia para tentar lidar com esses desafios. A fim de melhorar a precisão, é possível aplicar um método para disambiguar significados diferentes de uma única palavra. Vamos estudar a melhor forma de introduzir um dicionário bilíngue para resolver problemas de desambiguação. Então vamos testar a introdução da informação de contexto da origem da consulta, a fim de resolver problemas de desambiguação através de segmentadores estatísticos como dice score, modelagem de espaço vetorial ou análise semântica latente. Vamos avaliar e comparar nossas novas metodologias em termos de qualidade tanto para tradução automática quanto para CLIR. Uma vez que a metodologia proposta é estudada, analisada e comparada aos sistemas de tradução baseados em estatística, vamos escolher a combinação de técnicas que apresenta os melhores resultados para a integração com o projeto OnAir. O sistema será integrado e adaptado à plataforma OnAir e traduzirá consultas e documentos (se necessário). A tradução automática de consultas permitirá assistir vídeos em um idioma (inglês ou português) e fazer perguntas em outra língua (português ou inglês). (AU)
Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
Mais itensMenos itens |
TITULO |
Matéria(s) publicada(s) em Outras Mídias ( ): |
Mais itensMenos itens |
VEICULO: TITULO (DATA) |
VEICULO: TITULO (DATA) |