Busca avançada
Ano de início
Entree

Classificação de imagens combinando características visuais e dados textuais: abordagem neural e baseada em enxames

Processo: 13/05757-2
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de outubro de 2013 - 31 de dezembro de 2015
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Leandro Augusto da Silva
Beneficiário:Leandro Augusto da Silva
Instituição-sede: Faculdade de Computação e Informática (FCI). Universidade Presbiteriana Mackenzie (UPM). Instituto Presbiteriano Mackenzie. São Paulo , SP, Brasil
Pesq. associados:Leandro Nunes de Castro Silva
Assunto(s):Inteligência artificial  Computação natural  Mineração de dados  Redes neurais  Multimídia  Classificação 

Resumo

Os avanços da tecnologia, tanto de hardware quanto de comunicação, têm produzido um problema de superabundância de dados. Para ter ideia, a quantidade de usuários da Internet no mundo todo saiu de dezesseis milhões de pessoas em 1995 para aproximadamente dois bilhões em 2011; a quantidade de artigos publicados apenas em inglês na Wikipedia passou de quinhentos mil em 2005 para quase quatro milhões em 2011; o tempo necessário para o rádio atingir uma audiência de cinquenta milhões de pessoas foi de trinta e oito anos, enquanto a TV precisou de treze anos e a Internet de apenas quatro anos; a quantidade de buscas diárias no Google ultrapassa um bilhão; são escritos duzentos milhões de Tweets por dia e vistos três bilhões de vídeos no Youtube diariamente. No Youtube foram enviadas treze milhões de horas de vídeo apenas no ano 2010, o que corresponde a aproximadamente oito anos de conteúdo enviados todos os dias. O problema com o excesso de dados consiste na capacidade de coletar e armazenar dados, a qual tem superado a habilidade de analisar e extrair conhecimento dos mesmos. Esse efeito é decorrência principalmente do surgimento e crescimento das redes sociais, dos dispositivos móveis e da disponibilização de serviços de armazenagem e processamento remoto de dados. Os sistemas de gerenciamento de bancos de dados (SGBDs) também têm evoluído para armazenar não apenas dados textuais, mas também dados multimídia, ou seja, aqueles que usam uma ou mais formas de conteúdo, como texto, áudio, imagens, vídeos e interatividade. Com isso, a consolidada linguagem para consulta de dados estruturados, a SQL (do inglês, Structured Query Language), pode não estar sendo mais suficiente e eficiente em aplicações que usam esse tipo de dados. Com a realidade de dados multimídia, a consulta tradicional usando texto como parâmetro de entrada deve ser repensada para permitir também que se usem dados multimídia como parâmetro de entrada. O mecanismo de pesquisa Google, o mais utilizado no mundo, já permite em seu portal que se faça pesquisa por imagens a partir de imagens, mas ainda mantém a opção de pesquisa por imagem a partir de textos. Nesse sentido, o Facebook tem em seu portal de rede social a possibilidade de consulta por pessoas, a partir da marcação da face. Contudo, o grande problema de se fazer uma consulta por imagens é o gap semântico entre o que o usuário deseja encontrar e o que o sistema retorna como resposta. A representação da imagem como, por exemplo, a de uma mão, por meio de características como contorno, área ou alguma relação entre contorno e área, pode não ser garantia de que o sistema de busca consiga discernir pé de mão, pois pode haver um alto grau de semelhança entre as formas. Por outro lado, caso se queira representar a imagem por palavras chaves, o significado atribuído pelas pessoas pode ser diferente, no exemplo anterior, a imagem pode ser uma mão ou uma marca de roupa. Nesse caso, a eficiência da consulta por uma imagem de mão poderia ser conseguida em um processo de duas fases: na primeira a consulta a partir de textos (anotações, palavras-chave, etc.); e, na segunda, por características da imagem (contorno, área, textura, etc.). No entanto, em outras aplicações uma melhor eficiência poderia ser conseguida com a combinação das duas representações. Em resumo, o principal aspecto a ser investigado neste projeto de pesquisa é o uso de textos e características para representar dados multimídia com vistas à extração de conhecimentos a partir dos dados. Nesse contexto, é necessária a aplicação de técnicas e ferramentas que transformem, de maneira inteligente e automática, os dados multimídia disponíveis em informações úteis, que representem conhecimento para uma tomada de decisão estratégica nos negócios. (AU)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
FERREIRA CRUZ, DAVILA PATRICIA; MAIA, RENATO DOURADO; DA SILVA, LEANDRO AUGUSTO; DE CASTRO, LEANDRO NUNES. BeeRBF: A bee-inspired data clustering approach to design RBF neural network classifiers. Neurocomputing, v. 172, n. SI, p. 427-437, JAN 8 2016. Citações Web of Science: 21.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.
Mapa da distribuição dos acessos desta página
Para ver o sumário de acessos desta página, clique aqui.