Busca avançada
Ano de início
Entree

Classificação de textos com redes complexas

Processo: 10/00927-9
Modalidade de apoio:Bolsas no Brasil - Doutorado Direto
Data de Início da vigência: 01 de junho de 2010
Data de Término da vigência: 31 de julho de 2013
Área de conhecimento:Interdisciplinar
Pesquisador responsável:Luciano da Fontoura Costa
Beneficiário:Diego Raphael Amancio
Instituição Sede: Instituto de Física de São Carlos (IFSC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Vinculado ao auxílio:05/00587-5 - Modelagem por redes (grafos) e técnicas de reconhecimento de padrões: estrutura, dinâmica e aplicações, AP.TEM
Assunto(s):Redes complexas   Processamento de texto
Palavra(s)-Chave do Pesquisador:Classificação Textual | Desambiguação de sentido | Reconhecimento de Autoria | Redes Complexas | Redes Complexas

Resumo

A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores, uma taxa de acerto de 65~\% foi obtida com métricas de rede e intermitência de palavras. Ainda na análise de estilo, descobrimos que livros pertencentes ao mesmo estilo literário tendem a possuir estruturas topológicas similares. A modelagem de textos como redes também foi útil para discriminar sentidos de palavras ambíguas, a partir apenas de informação topológica dos vértices, evidenciando uma relação não trivial entre sintaxe e semântica. Para algumas palavras, a discriminação com redes complexas foi ainda melhor que a estratégia baseada em padrões de recorrência contextual de palavras polissêmicas. Os estudos desenvolvidos nesta tese confirmam que aspectos de estilo e semânticos influenciam na organização estrutural de conceitos em textos modelados como rede. Assim, a modelagem de textos como redes de adjacência de palavras pode ser útil não apenas para entender mecanismos fundamentais da linguagem, mas também para aperfeiçoar aplicações reais quando combinada com métodos tradicionais de processamento de texto. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (16)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
AMANCIO, DIEGO R.; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. A decaying factor accounts for contained activity in neuronal networks with no need of hierarchical or modular organization. JOURNAL OF STATISTICAL MECHANICS-THEORY AND EXPERIMENT, . (11/50761-2, 10/00927-9)
AMANCIO, D. R.; OLIVEIRA, JR., O. N.; COSTA, L. DA F.. On the concepts of complex networks to quantify the difficulty in finding the way out of labyrinths. PHYSICA A-STATISTICAL MECHANICS AND ITS APPLICATIONS, v. 390, n. 23-24, p. 4673-4683, . (05/00587-5, 10/00927-9)
AMANCIO, DIEGO R.; ALTMANN, EDUARDO G.; RYBSKI, DIEGO; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. Probing the Statistical Properties of Unknown Texts: Application to the Voynich Manuscript. PLoS One, v. 8, n. 7, . (11/50761-2, 10/00927-9)
SILVA, THIAGO C.; AMANCIO, DIEGO R.. Discriminating word senses with tourist walks in complex networks. European Physical Journal B, v. 86, n. 7, . (10/00927-9, 09/12329-1)
AMANCIO, D. R.; NUNES, M. G. V.; OLIVEIRA, JR., O. N.; PARDO, T. A. S.; ANTIQUEIRA, L.; COSTA, L. DA F.. Using metrics from complex networks to evaluate machine translation. PHYSICA A-STATISTICAL MECHANICS AND ITS APPLICATIONS, v. 390, n. 1, p. 131-142, . (10/00927-9)
AMANCIO, DIEGO R.; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. Topological-collaborative approach for disambiguating authors' names in collaborative networks. SCIENTOMETRICS, v. 102, n. 1, p. 465-485, . (11/50761-2, 13/06717-4, 10/00927-9)
AMANCIO, D. R.; NUNES, M. G. V.; OLIVEIRA, JR., O. N.; COSTA, L. DA F.. Using complex networks concepts to assess approaches for citations in scientific papers. SCIENTOMETRICS, v. 91, n. 3, p. 827-842, . (10/00927-9)
AMANCIO‚ DR; NUNES‚ M.G.V.; OLIVEIRA‚ ON; DA F. COSTA‚ L.. Using complex networks concepts to assess approaches for citations in scientific papers. SCIENTOMETRICS, p. 1-16, . (10/00927-9)
SILVA, THIAGO CHRISTIANO; AMANCIO, DIEGO RAPHAEL. Network-based stochastic competitive learning approach to disambiguation in collaborative networks. Chaos, v. 23, n. 1, . (10/00927-9, 09/12329-1)
AMANCIO, DIEGO R.; OLIVEIRA, OSVALDO N., JR.; COSTA, LUCIANO DA F.. A decaying factor accounts for contained activity in neuronal networks with no need of hierarchical or modular organization. JOURNAL OF STATISTICAL MECHANICS-THEORY AND EXPERIMENT, v. N/A, p. 12-pg., . (10/00927-9, 11/50761-2)
AMANCIO, DIEGO RAPHAEL; COMIN, CESAR HENRIQUE; CASANOVA, DALCIMAR; TRAVIESO, GONZALO; BRUNO, ODEMIR MARTINEZ; RODRIGUES, FRANCISCO APARECIDO; COSTA, LUCIANO DA FONTOURA. A Systematic Comparison of Supervised Classifiers. PLoS One, v. 9, n. 4, . (13/06717-4, 10/00927-9, 11/22639-8, 13/14984-2, 10/19440-2, 14/04930-5, 11/50761-2)
AMANCIO, DIEGO R.; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. On the use of topological features and hierarchical characterization for disambiguating names in collaborative networks. EPL, v. 99, n. 4, . (10/00927-9)
AMANCIO, DIEGO R.; ALUISIO, SANDRA M.; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. Complex networks analysis of language complexity. EPL, v. 100, n. 5, . (11/50761-2, 10/00927-9)
SILVA, THIAGO C.; AMANCIO, DIEGO R.. Word sense disambiguation via high order of learning in complex networks. EPL, v. 98, n. 5, . (10/00927-9, 09/12329-1)
AMANCIO, DIEGO RAPHAEL; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA FONTOURA. Identification of literary movements using complex networks to represent texts. NEW JOURNAL OF PHYSICS, v. 14, . (11/50761-2, 10/00927-9)
AMANCIO, DIEGO R.; OLIVEIRA, JR., OSVALDO N.; COSTA, LUCIANO DA F.. Unveiling the relationship between complex networks metrics and word senses. EPL, v. 98, n. 1, . (10/00927-9)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
AMANCIO, Diego Raphael. Classificação de textos com redes complexas. 2013. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Física de São Carlos (IFSC/BT) São Carlos.