Busca avançada
Ano de início
Entree

Product2Vec: representação semântica de produtos de lojas virtuais utilizando aprendizado de máquina

Processo: 19/00798-9
Linha de fomento:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Vigência: 01 de abril de 2020 - 31 de dezembro de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Everton Alvares Cherman
Beneficiário:Everton Alvares Cherman
Empresa:Ssoft Ltda
CNAE: Desenvolvimento e licenciamento de programas de computador não-customizáveis
Município: São Paulo
Pesquisadores principais:Ricardo Marcondes Marcacini
Pesq. associados: Bruno Magalhães Nogueira ; Diego Furtado Silva ; Moacir Antonelli Ponti ; Rafael Geraldeli Rossi ; Solange Oliveira Rezende
Assunto(s):Aprendizado computacional  Inteligência artificial  Web semântica  Aprendizagem profunda  Comércio eletrônico  Mídias sociais  Smartphone 

Resumo

Consumidores têm realizado pesquisas exploratórias cada vez mais longas considerando um número cada vez maior de diferentes fontes e tipos de informações. Lojas virtuais, canais de youtube, agregadores de ofertas, notícias, fóruns de discussão, sites de fabricantes e redes sociais são exemplos das diversas fontes de informação que consumidores podem utilizar para decidir sua compra. Essas fontes apresentam informação de vários tipos, tais como descrições de produtos, especificações, avaliações de consumidores, revisões de especialistas, vídeos de demonstração, imagens dos produtos, perguntas e respostas, entre outros tipos de dados. Essa grande quantidade de informações pulverizadas em diversos locais têm tornada a jornada de pesquisa e de decisão de compra tem sido cada vez mais longa e gerado cada vez mais insegurança aos consumidores. Nesse sentido, avanços recentes em representações multivisão (multi-modal) na área de Aprendizado de Máquina e Deep Learning podem suportar novas aplicações para facilitar a personalização e exploração dessas informações. Considerar esses avanços no domínio de produtos (e seus conteúdos relacionados) de e-commerce representa um desafio técnico-científico e é o objetivo principal deste projeto de pesquisa.Esforços técnicos e de pesquisa científica já têm sido empregados pela Birdie para coletar e estruturar dados desse domínio desenvolver tecnologias que habilitem aplicações para auxiliar consumidores, como buscas mais semânticas e agregação e personalização de diferentes tipos de informações. A empresa já conta com uma base de dados com mais de 50 milhões de registros entre ofertas, avaliações/reviews, imagens, perguntas e respostas de 420 diferentes fontes, além mais de 5 milhões de preços são monitorados e armazenados diariamente. Esses dados estão sendo utilizados para criar aplicações, aplicar e avaliar tarefas de Aprendizado de Máquina tradicionais como a classificação desses registros em categorias, análise de sentimentos de avaliações, estruturação de descrições de produtos, entre outras. Esses esforços resultaram em alguns produtos, tais como o módulo de matching (de-duplicação) automático de diferentes ofertas de um mesmo produto e a consolidação e agregação de diferentes informações sobre produtos. A demonstração de ambas como produto final ao consumidor pode ser encontrada em http://find.birdie.ai/. No entanto, foram utilizados métodos tradicionais de aprendizado de máquina que dependem muito de validação humana, como rotulação de amostras, criação de dicionários e construção de listas de referências (marcas, categorias e modelos). Tais limitações reduzem a escala da solução e dificultam sua expansão para diversas categorias de produtos. Por outro lado, avanços recentes na área de aprendizado de máquina que utilizam conceitos de Deep Learning, regularização de similaridades e modelagem por redes heterogêneas demandam um grande volume de dados para funcionar mas precisam de poucos exemplos rotulados (aprendizado semissupervisionado), possibilitando menor intervenção humana no processo de aprendizado e maior generalidade e escala dos modelos criados.Nesse sentido, este projeto de pesquisa tem como principal intuito adaptar e incorporar métodos recentes de aprendizado de máquina que lidam com dados heterogêneos para estruturar a grande quantidade de informações contidas no domínio de e-commerce. O resultado final da estruturação dessas informações é chamado nesta proposta de Product2Vec, em que é obtida uma nova representação sobre os produtos de comércio eletrônico, integrando fichas técnicas, reviews, comentários, e diversos outros metadados. Essa nova representação permitirá correlacionar diretamente diferentes tipos de informações do modelo e fornecerá maior flexibilidade e poder de escala para criar aplicações relacionadas ao domínio da empresa. (AU)