Busca avançada
Ano de início
Entree

O uso de características das palavras na extração de termos em fóruns online

Processo: 12/09375-4
Modalidade de apoio:Bolsas no Exterior - Estágio de Pesquisa - Doutorado
Data de Início da vigência: 01 de setembro de 2012
Data de Término da vigência: 28 de fevereiro de 2013
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Solange Oliveira Rezende
Beneficiário:Merley da Silva Conrado
Supervisor: Marilyn Walker
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Instituição Anfitriã: University of California, Santa Cruz (UC Santa Cruz), Estados Unidos  
Vinculado à bolsa:09/16142-3 - Modelo híbrido de extração de termos aplicado na mineração de textos, BP.DR
Assunto(s):Inteligência artificial   Mineração de texto
Palavra(s)-Chave do Pesquisador:Extração de termos | Mineração de Textos | Inteligência Artificial e Processamento de Língua Natural

Resumo

Devido à enorme quantidade de informação no formato textual disponível atualmente no universo digital, torna-se necessário transformá-la de forma automática ou semiautomática em conhecimento útil e organizado. O processo de Mineração de Textos tem sido muito utilizado para esse fim, sendo que um dos passos mais importantes desse processo é a extração de termos. Neste contexto, este projeto de pesquisa no exterior visa explorar e avaliar medidas e características que podem ser utilizadas para a extração de termos. A abordagem a ser adotada para tal objetivo tem como entrada uma coleção textual e para cada candidato a termo dessa coleção serão atribuídos valores provenientes de medidas e características estatísticas e linguísticas. As estatísticas têm como base a frequência e algumas delas verificam a coocorrência das palavras, p. ex. TF-IDF e C-value. As medidas linguísticas permitem atribuir valores diferenciados aos candidatos que tenham maior chance de ser um termo por ser um sintagma nominal ou pertencer a algum padrão morfossintático, p. ex.. Há também medidas que consideram a correlação linguística e as dependências entre as palavras, como por exemplo, se uma palavra tem muitos dependentes, é possível que seja importante para a coleção e consequentemente seja um termo do domínio. A principal hipótese é que, com a junção de características menos e mais sofisticadas, será possível distinguir automaticamente se candidatos são termos ou não do domínio. Com os termos extraídos, pretende-se auxiliar na identificação de persuasão em fóruns e debates online e reais, inserindo-se no Projeto "textit{Persuasion in Social Media" (WalkerEtAl:2011,WalkerEtAl:2012). (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)