Busca avançada
Ano de início
Entree

Pesquisa priorizada de palavras-chaves em Documentos XML

Processo: 10/00330-2
Linha de fomento:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de outubro de 2010
Vigência (Término): 31 de agosto de 2011
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Caetano Traina Junior
Beneficiário:Joe Tekli
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Bases de dados

Resumo

A linguagem XML se estabeleceu como o principal padrão para a disseminação de dados, e vem sendo amplamente empregada para representar e armazenar dados de diversos formatos. Com seu crescente uso, principalmente na Web, o desenvolvimento de técnicas eficientes para busca e recuperação de dados em formato XML vem se tornando cada vez mais importantes, e especialmente as comunidades de Bases de Dados (DB) e Recuperação de Informações (IR) vêm desenvolvendo pesquisas para viabilizar tais técnicas. A padronização da linguagem XML permite representar tanto dados estruturados quanto não-estruturados, o que estimula ambas as comunidades de DB e IR a explorar técnicas híbridas a ambas as comunidades, o que tem levado à integração de pesquisas dos respectivos pesquisadores. Um exemplo dessa integração é o uso de técnicas tradicionais da área de bases de dados para extender a linguagem XML para permitir obter resultados de consultas priorizados (ranked results). Este projeto em particular visa desenvolver técnicas para executar de maneira eficiente consultas por similaridade sobre grandes coleções de documentos representados em XML, em que as respostas sejam priorizadas levando em conta tanto a similaridade dos termos encontrados nos documentos quanto a sua estrutura. A tática para isso será empregar modelos de busca por palavras-chave especificadas nas consultas, criando um ambiente de busca que permita localizar as palavras de interesse que leve em conta a estrutura dos documentos. Dessa maneira, ao invés de depender de linguagens complexas para a representação dos dados e dados consultas, tais como XML-QL, XQL ou XQuery, para realizar as buscas sobre os dados XML, o projeto visa aliar métodos mas simples e intuitivos para representar as consultas por palavras-chaves, mas explorando a estrutura hierárquica dos documentos expressos em XML. Em outras palavras, neste projeto pretende-se desenvolver uma técnica que permita a representação intuitiva das consultas, de maneira que a elaboração das mesmas seja mais amigável ao usuário do que as técnicas atualmente disponíveis, e explorar melhor os mecanismos de ordenação de prioridades que podem ser executados por técnicas de bases de dados, de maneira a identificar as necessidades dos usuários a partir de seu perfil, que é interativa e automaticamente criado durante as sessões de busca realizadas por eles.

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
TEKLI, JOE; CHBEIR, RICHARD; TRAINA, AGMA J. M.; TRAINA, JR., CAETANO; FILETO, RENATO. Approximate XML structure validation based on document-grammar tree similarity. INFORMATION SCIENCES, v. 295, p. 258-302, FEB 20 2015. Citações Web of Science: 8.
TEKLI, JOE; CHBEIR, RICHARD. A novel XML document structure comparison framework based-on sub-tree commonalities and label semantics. Journal of Web Semantics, v. 11, p. 14-40, MAR 2012. Citações Web of Science: 20.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.