Busca avançada
Ano de início
Entree

QUEST - sistema de busca e agregação de informações baseado em técnicas Zero-Shot

Processo: 22/01640-2
Modalidade de apoio:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Data de Início da vigência: 01 de maio de 2022
Data de Término da vigência: 30 de abril de 2024
Área do conhecimento:Engenharias - Engenharia Elétrica
Pesquisador responsável:Rodrigo Frassetto Nogueira
Beneficiário:Rodrigo Frassetto Nogueira
Empresa:Neuralmind Inteligência Artificial Ltda
CNAE: Desenvolvimento e licenciamento de programas de computador customizáveis
Município: Campinas
Pesquisadores associados: Fábio Capuano de Souza ; José Ramon Trindade Pires
Vinculado ao auxílio:20/09753-5 - Sistema inteligente para análise de jurisprudência usando técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural, AP.PIPE
Auxílio(s) vinculado(s):22/13727-5 - Validação do NeuralSearchX para buscas em bases tributárias e integração com MS Office, AP.PIPE
Bolsa(s) vinculada(s):23/08077-4 - Adaptação dos módulos de sistema de buscas (módulo 1) e de mapeamento de seção-documentos (módulo 3) para o domínio técnico brasileiro., BP.TT
22/05387-0 - Implementação do módulo de mapeamento seção-documentos (módulo 3), BP.TT
22/05155-1 - Implementação módulo de geração de seções (módulo 2), BP.TT
22/05112-0 - Exploração de técnicas de busca e consolidação de informações que sejam alternativas às da arquitetura proposta, BP.TT
Assunto(s):Aprendizagem profunda  Processamento de linguagem natural  Aprendizado computacional  Recuperação da informação 
Palavra(s)-Chave do Pesquisador:Aprendizado profundo | Modelos de Linguagem pré-treinados | Sistemas de busca | Sumarização | Zero-shot | Aprendizado de máquina e processamento de linguagem natural

Resumo

Na fase 1 do projeto PIPE, desenvolvemos um sistema para a análise de jurisprudência, baseado em modelos de aprendizado profundo (Deep Learning), que se mostrou significativamente superior a modelos clássicos, como o BM25. Apesar de sua qualidade, este sistema de busca se limita, assim como sistemas concorrentes, a mostrar a resposta na forma de uma lista com "10 links azuis". Isso exige do usuário a leitura e consolidação de textos vindos de fontes distintas, comumente descorrelatas, ou até mesmo contraditórias. Assim, uma demanda frequente de mercado são sistemas que consolidem e elaborem respostas complexas para diversos tópicos, de forma concisa. Neste projeto, propomos o desenvolvimento de um sistema de busca e consolidação de informações usando modelos de aprendizado profundo baseados no paradigma zero-shot. Mais especificamente, dado um tópico (i.e., query/pergunta) provido pelo usuário, o sistema proposto executa três estágios: 1) busca e retorno de grande quantidade de documentos possivelmente relevantes para o tópico; 2) descoberta de subtópicos; 3) e mapeamento de documentos representativos para cada subtópico. Ao final, o sistema mostra ao usuário um documento em formato semelhante a um artigo da Wikipédia, com múltiplas seções e links para documentos representativos para cada uma delas. Temos sólida experiência no desenvolvimento do primeiro e terceiro estágios: além dos resultados positivos obtidos na fase 1 do projeto PIPE, nosso time ganhou mais de seis competições internacionais de buscas e relevância de documentos entre 2020 e 2021 (Nogueira et al., 2020; Pradeep et al. 2021), todas usando o mesmo sistema com pequenas adaptações. O segundo estágio é responsável por agrupar e resumir as informações. Ele detectará os subtópicos mais comuns abordados pelos documentos retornados no primeiro estágio. Os documentos mais representativos de cada subtópico serão selecionados e mostrados ao usuário. Este estágio fará uso do Corpus2Question (Surita et al. 2020), que é um modelo desenvolvido em parceria com alunos que orientamos na UNICAMP para detecção de tópicos e tendências, com qualidade superior a de modelos clássicos como o Latent Dirichlet Allocation (LDA). Um dos principais desafios no desenvolvimento deste sistema é ter uma metodologia de avaliação objetiva da qualidade dos resultados. Para tanto, criaremos, com a ajuda de especialistas, um conjunto de dados de validação que contenha exemplos de: 1) tópicos (queries/perguntas) de interesse; 2) seus respectivos subtópicos; 3) e documentos relevantes a cada subtópico. Outro desafio é a falta de dados de treinamento. Nossa estratégia para tanto é a utilização de modelos zero-shot, ou seja, modelos treinados em dados de domínios (ou idiomas) diferentes daqueles que serão usados em tempo de inferência. Como dispensam treinamento no domínio específico, podem ser prontamente utilizados em novos documentos. Resultados recentes da literatura científica e nossos próprios experimentos na fase 1 do projeto PIPE mostram que esses modelos têm desempenho superior ao de modelos treinados para a tarefa final. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SAKIYAMA, KENZO; NOGUEIRA, RODRIGO; ROMERO, ROSELI A. F.; IEEE. Automated Keyphrase Generation for Brazilian Legal Information Retrieval. 2023 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS, IJCNN, v. N/A, p. 8-pg., . (22/01640-2, 14/50851-0)
PEREIRA, JAYR; FIDALGO, ROBSON; LOTUFO, ROBERTO; NOGUEIRA, RODRIGO; KAMPS, J; GOEURIOT, L; CRESTANI, F; MAISTRO, M; JOHO, H; DAVIS, B; et al. Visconde: Multi-document QA with GPT-3 and Neural Reranking. ADVANCES IN INFORMATION RETRIEVAL, ECIR 2023, PT II, v. 13981, p. 10-pg., . (22/01640-2)
BONIFACIO, LUIZ; ABONIZIO, HUGO; FADAEE, MARZIEH; NOGUEIRA, RODRIGO; ACM. InPars: Unsupervised Dataset Generation for Information Retrieval. PROCEEDINGS OF THE 45TH INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL (SIGIR '22), v. N/A, p. 6-pg., . (22/01640-2, 20/09753-5)