Busca avançada
Ano de início
Entree

Uma plataforma de monitoramento de mídia social: processamento de linguagem natural em larga escala numa plataforma Hadoop

Processo: 14/22802-4
Linha de fomento:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Vigência: 01 de outubro de 2015 - 30 de junho de 2016
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Thiago Barros Rodrigues Costa
Beneficiário:Thiago Barros Rodrigues Costa
Empresa:Nervera Serviços de Informática Ltda. - ME
Município: São Paulo
Pesquisadores principais:Andrei Cristian Roman
Auxílios(s) vinculado(s):17/12888-7 - Uma plataforma de agregação e inteligência de mídia em larga escala, AP.PIPE
Bolsa(s) vinculada(s):16/00261-7 - Uma plataforma de monitoramento de mídia social: processamento de linguagem natural em larga escala numa plataforma Hadoop, BP.PIPE
Assunto(s):Aprendizado computacional  Processamento de linguagem natural  Processamento de dados  Mídias sociais  Big data 

Resumo

Grande parte dos dados provenientes da mídia social se encontram em formato de linguagem natural, tais como postagens de blogs, comentários, notícias, mensagens, etc. Este cenário gera um aumento na demanda por técnicas de aprendizado de máquina e processamento de linguagem natural tais como classificadores e modelos de sequência. O nosso projeto busca desenvolver este tipo de técnicas de forma distribuída e escalável para grandes volumes de dados e com foco em português. Queremos aplicar essas tecnologias na construção de um sistema de extração de significado e monitoramento de mídia social. O Hadoop é uma plataforma open-source que foi inicialmente inspirada por tecnologias desenvolvidas pelo Google, como o framework Map-Reduce e o Google File System. O Yahoo! foi seu maior contribuidor no início e continua utilizando a plataforma de forma intensiva em seu negócio. A crescente adoção do Hadoop tanto por grandes empresas internacionais como também por um grupo crescente de desenvolvedores independentes resultou na criação de um rico reservatório de código, ferramentas e funcionalidades. Esse é o motivo pelo qual ele foi escolhido como plataforma para o desenvolvimento dos algoritmos distribuídos deste projeto. Na base do sistema Hadoop está o framework Map-Reduce. Este framework é focado no processamento de dados armazenados de forma distribuída, onde cada nó do sistema armazena um ou mais segmentos do dado. A primeira fase (Map) consiste na leitura de um segmento do dado e no processamento local em cima deste segmento, sem levar em consideração os demais. Na segunda fase (Reduce) os resultados da fase de Map para cada segmento são agregados e o resultado geral é computado. Desta forma, além de permitir o processamento distribuído, o Map-Reduce ajuda a minimizar o tráfego de dados na rede. O objetivo concreto deste projeto é de implementar técnicas avançadas de aprendizado de máquina e processamento de linguagem natural em cima do framework Map-Reduce. Como resultado, esperamos contribuir de forma significativa ao avanço na capacidade de extrair informações de alto valor agregado de grandes massas de dados não-estruturados, especialmente de textos escritos na língua portuguesa. A aplicação comercial deste avanço tecnológico será uma plataforma de monitoramento de mídia social cujas funcionalidades ajudarão os nossos clientes entenderem em tempo real a evolução do mercado no qual atuam, ganharem informações relevantes sobre decisões estratégicas a serem tomadas e intervirem de forma imediata para conter relatos negativos ou multiplicar o impacto de relatos positivos. (AU)

Mapa da distribuição dos acessos desta página
Para ver o sumário de acessos desta página, clique aqui.