Graph-based total recall information retrieval on text document corpora

Processo:	17/50153-9
Modalidade de apoio:	Auxílio à Pesquisa - Regular
Data de Início da vigência:	01 de junho de 2018
Data de Término da vigência:	31 de maio de 2020
Área do conhecimento:	Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Acordo de Cooperação:	Consórcio de Alberta, Laval, Dalhousie e Ottawa (CALDO)
Proposta de Mobilidade:	SPRINT - Projetos de pesquisa - Mobilidade

Pesquisador responsável:	Alneu de Andrade Lopes
Beneficiário:	Alneu de Andrade Lopes
Pesquisador Responsável no exterior:	Evangelos Milios
Instituição Parceira no exterior:	Dalhousie University, Canadá

Instituição Sede:	Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil

Vinculado ao auxílio:	15/14228-9 - Análise e Mineração de Redes Sociais, AP.R

Assunto(s):	Mineração de texto Algoritmos Reconhecimento de padrões Recuperação da informação Biodiversidade
Palavra(s)-Chave do Pesquisador:	Ciencia Da Computacao

Resumo

No mundo real, o formato textual é a maneira usual de armazenar informações. Assim, técnicas automatizadas que ajudam a agrupar, extrair tópicos e classificar documentos textuais, minimizando a necessidade de intervenção humana, continuam a ser um tópico de pesquisa valioso. Nesse contexto, os grupos brasileiros e canadenses desenvolveram uma série de técnicas relacionadas à mineração de texto baseada em rede, para complementar o modelo de espaço vetorial tradicional para representar coleções textuais, mais especificamente, representando coleções textuais como redes de termos e documentos. Algoritmos que usam uma representação gráfica têm várias vantagens uma vez que uma representação gráfica: (1) evita a esparsidade e garante baixo consumo de memória; (2) permite uma descrição ótima da estrutura topológica de um conjunto de dados e operações associadas; (3) fornece estatísticas locais e globais da estrutura do conjunto de dados; e (4) permite a extração de padrões que não são extraídos por algoritmos baseados no modelo de espaço vetorial (Breve et al., 2012). Usando tais representações, uma série de técnicas foi desenvolvida para a aprendizagem supervisionada, não supervisionada, e semissupervisionada por ambos os grupos. Os métodos do grupo brasileiro são baseados na propagação de informações em redes bipartidas e podem ser aplicados em diferentes domínios. Nos domínios textuais, nos quais uma coleção de documentos pode ser representada por redes bipartidas documento-termo, os métodos desenvolvidos variam de classificação de texto a soft clustering, incluindo classificação semissupervisionada e extração de tópicos. A equipe canadense por sua vez está envolvida em um importante projeto em andamento sobre recuperação de informações total recall (IR) em grandes conjuntos de dados de texto ruidosos financiados pelo NSERC e pela Boeing Canadá. Um projeto diferente que recebeu financiamento do programa Digging into Data até o final de 2015 e continua sob a concessão de subsídios do NSERC aborda o recall total de IR em um grande corpus de texto sobre patrimônio de biodiversidade. Como um problema prático de motivação, este projeto também visa expandir a funcionalidade e a utilidade da Biblioteca de Patrimônio da Biodiversidade (BHL), uma biblioteca digital com mais de 170 mil volumes e 49 milhões de páginas de literatura sobre biodiversidade, remontando ao século XVI, abertamente disponível para a comunidade global de biodiversidade. A colaboração entre as duas equipes terá como objetivo abordagens inovadoras para que cada equipe possa aprimorar seu conhecimento e uso de estratégias, técnicas e ferramentas empregadas pelo outro grupo, no contexto do IR total para o corpus BHL. Estas oportunidades se estenderão aos alunos que trabalham nestes tópicos, que irão experimentar a colaboração internacional e estágios nas instituições parceiras como parte dos projetos de mestrado ou doutorado. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:

Mais itens Menos itens

TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):

Mais itens Menos itens

VEICULO: TITULO (DATA)

URL curto