Busca avançada
Ano de início
Entree
Conteúdo relacionado

Tradução de consultas usando morfologia melhorada e técnicas semânticas em um sistema estatístico de tradução automática (MorSeM)

Processo: 12/02131-2
Linha de fomento:Auxílio à Pesquisa - Pesquisador Visitante - Internacional
Vigência: 06 de maio de 2012 - 30 de novembro de 2012
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Renata Wassermann
Beneficiário:Renata Wassermann
Pesquisador visitante: Marta Ruiz Costa-Jussa
Inst. do pesquisador visitante: Barcelona Media (BM), Espanha
Instituição-sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo, SP, Brasil
Assunto(s):Inteligência artificial  Processamento de linguagem natural  Tradução automática 

Resumo

A relevância da recuperação da informação multilíngue reside na presença de mais e mais línguas em diferentes plataformas. Torna-se mais comum que indivíduos para explorem conjuntos de textos multilíngues. Esta área de pesquisa é chamada de Recuperação de Informação Cross-lingual (CLIR), que é a circunstância em que um usuário tenta recuperar informações em um conjunto de documentos escritos em uma linguagem através de uma consulta em outro idioma. No contexto CLIR, este projeto pretende investigar novos métodos linguísticos para tradução automática estatística (SMT) que maximizam a qualidade da tradução da consulta. Este projeto seria desenvolvido no contexto do Projeto OnAir (FAPESP2010/19111-9), que se concentra em facilitar a tarefa de buscar informações em vídeos longos português ou em inglês. Por um lado, a natureza das consultas é significativamente diferente do paradigma texto que é o objetivo dos sistemas de tradução automática. A motivação para a tradução de consulta encontra-se na tradução de termos específicos do domínio e isolado. Ao traduzir consultas, temos pouca ou nenhuma informação adicional sobre o contexto. Assim, os métodos padrão de tradução automática podem produzir um desempenho ruim. Por outro lado, devemos levar em conta que a área de tradução automática é altamente interdisciplinar e multidisciplinar uma vez que é abordada a partir do ponto de vista de tradutores, engenheiros, cientistas da computação, matemáticos e linguistas. Portanto, aproveitando isso, o objetivo principal do projeto é explorar diferentes técnicas de linguística e estatística (dando ênfase à morfologia e semântica) para serem utilizadas em um sistema de tradução automática estatística do estado da arte, a fim de traduzir corretamente consultas. Um dos principais problemas na tradução automática é ser capaz de escolher o significado correto, que envolve um problema de classificação ou de desambiguação. Ao mesmo tempo, um dos aspectos mais importantes da tradução de consultas é para superar o aspecto semântico da tradução. Além disso, a morfologia pode ser uma barreira para desambiguação semântica. Portanto, neste projeto iremos introduzir ferramentas de morfologia para tentar lidar com esses desafios. A fim de melhorar a precisão, é possível aplicar um método para disambiguar significados diferentes de uma única palavra. Vamos estudar a melhor forma de introduzir um dicionário bilíngue para resolver problemas de desambiguação. Então vamos testar a introdução da informação de contexto da origem da consulta, a fim de resolver problemas de desambiguação através de segmentadores estatísticos como dice score, modelagem de espaço vetorial ou análise semântica latente. Vamos avaliar e comparar nossas novas metodologias em termos de qualidade tanto para tradução automática quanto para CLIR. Uma vez que a metodologia proposta é estudada, analisada e comparada aos sistemas de tradução baseados em estatística, vamos escolher a combinação de técnicas que apresenta os melhores resultados para a integração com o projeto OnAir. O sistema será integrado e adaptado à plataforma OnAir e traduzirá consultas e documentos (se necessário). A tradução automática de consultas permitirá assistir vídeos em um idioma (inglês ou português) e fazer perguntas em outra língua (português ou inglês). (AU)