Busca avançada
Ano de início
Entree

Extração de unidades terminológicas em dados não-estruturados aplicada ao aprendizado semi-supervisionado multivisão

Processo: 08/02091-5
Modalidade de apoio:Bolsas no Brasil - Mestrado
Data de Início da vigência: 01 de março de 2009
Data de Término da vigência: 28 de fevereiro de 2010
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Maria Carolina Monard
Beneficiário:Ígor Assis Braga
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Inteligência artificial   Aprendizado computacional   Mineração de texto   Pré-processamento de dados   Dados não estruturados   Extração automática de termos   Algoritmos
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | aprendizado semi-supervisionado multivisão | Co-Training | Extração de Terminologia | Mineração de Textos | pré-processamento de dados não-estruturados | Inteligência Artificial

Resumo

A Mineração de Textos (MT) tem uma crescente importância prática dado o volume massivo de documentos disponíveis online. No entanto, o sucesso da etapa de extração de padrões da MT ainda depende muito da existência de textos rotulados. A solução para esse problema vem sendo pesquisada na área de Aprendizado Semi-supervisionado (Ss), que tem o potencial de reduzir a necessidade de custosas aquisições de dados rotulados. Alguns algoritmos de aprendizado Ss necessitam de que mais de uma visão (ou descrição) dos dados seja construída. Poucos estudos já lidaram com a extração de duas descrições de dados textuais, e é essa lacuna que este trabalho pretende preencher. Neste sentido, para construir uma segunda visão de dados textuais, propõe-se uma abordagem lingüístico-estatística de extração de terminologia. A hipótese subjacente a essa abordagem híbrida está no fato de que documentos especializados são caracterizados pelo uso repetido de certas unidades lexicais ou construções morfossintáticas. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
BRAGA, Ígor Assis. Aprendizado semissupervisionado multidescrição em classificação de textos. 2010. Dissertação de Mestrado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.