Busca avançada
Ano de início
Entree

Graph-based total recall information retrieval on text document corpora

Processo: 17/50153-9
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de junho de 2018 - 31 de maio de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Convênio/Acordo: Consórcio de Alberta, Laval, Dalhousie e Ottawa (CALDO)
Pesquisador responsável:Alneu de Andrade Lopes
Beneficiário:Alneu de Andrade Lopes
Pesq. responsável no exterior: Evangelos Milios
Instituição no exterior: Dalhousie University, Canadá
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos, SP, Brasil
Vinculado ao auxílio:15/14228-9 - Análise e mineração de redes sociais, AP.R
Assunto(s):Mineração de texto  Projetos SPRINT 

Resumo

No mundo real, o formato textual é a maneira usual de armazenar informações. Assim, técnicas automatizadas que ajudam a agrupar, extrair tópicos e classificar documentos textuais, minimizando a necessidade de intervenção humana, continuam a ser um tópico de pesquisa valioso. Nesse contexto, os grupos brasileiros e canadenses desenvolveram uma série de técnicas relacionadas à mineração de texto baseada em rede, para complementar o modelo de espaço vetorial tradicional para representar coleções textuais, mais especificamente, representando coleções textuais como redes de termos e documentos. Algoritmos que usam uma representação gráfica têm várias vantagens uma vez que uma representação gráfica: (1) evita a esparsidade e garante baixo consumo de memória; (2) permite uma descrição ótima da estrutura topológica de um conjunto de dados e operações associadas; (3) fornece estatísticas locais e globais da estrutura do conjunto de dados; e (4) permite a extração de padrões que não são extraídos por algoritmos baseados no modelo de espaço vetorial (Breve et al., 2012). Usando tais representações, uma série de técnicas foi desenvolvida para a aprendizagem supervisionada, não supervisionada, e semissupervisionada por ambos os grupos. Os métodos do grupo brasileiro são baseados na propagação de informações em redes bipartidas e podem ser aplicados em diferentes domínios. Nos domínios textuais, nos quais uma coleção de documentos pode ser representada por redes bipartidas documento-termo, os métodos desenvolvidos variam de classificação de texto a soft clustering, incluindo classificação semissupervisionada e extração de tópicos. A equipe canadense por sua vez está envolvida em um importante projeto em andamento sobre recuperação de informações total recall (IR) em grandes conjuntos de dados de texto ruidosos financiados pelo NSERC e pela Boeing Canadá. Um projeto diferente que recebeu financiamento do programa Digging into Data até o final de 2015 e continua sob a concessão de subsídios do NSERC aborda o recall total de IR em um grande corpus de texto sobre património de biodiversidade. Como um problema prático de motivação, este projeto também visa expandir a funcionalidade e a utilidade da Biblioteca de Património da Biodiversidade (BHL), uma biblioteca digital com mais de 170 mil volumes e 49 milhões de páginas de literatura sobre biodiversidade, remontando ao século XVI, abertamente disponível para a comunidade global de biodiversidade. A colaboração entre as duas equipes terá como objetivo abordagens inovadoras para que cada equipe possa aprimorar seu conhecimento e uso de estratégias, técnicas e ferramentas empregadas pelo outro grupo, no contexto do IR total para o corpus BHL. Estas oportunidades se estenderão aos alunos que trabalham nestes tópicos, que irão experimentar a colaboração internacional e estágios nas instituições parceiras como parte dos projetos de mestrado ou doutorado. (AU)

Mapa da distribuição dos acessos desta página
Para ver o sumário de acessos desta página, clique aqui.