Busca avançada
Ano de início
Entree

Uma plataforma de monitoramento de mídia social: processamento de linguagem natural em larga escala numa plataforma Hadoop

Processo: 16/00261-7
Linha de fomento:Bolsas no Brasil - Pesquisa Inovativa em Pequenas Empresas - PIPE  
Vigência (Início): 01 de outubro de 2015
Vigência (Término): 30 de junho de 2016
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Thiago Barros Rodrigues Costa
Beneficiário:Thiago Barros Rodrigues Costa
Empresa:Nervera Serviços de Informática Ltda. - ME
Vinculado ao auxílio:14/22802-4 - Uma plataforma de monitoramento de mídia social: processamento de linguagem natural em larga escala numa plataforma Hadoop, AP.PIPE
Assunto(s):Aprendizado computacional   Mídias sociais   Processamento de linguagem natural   Big data   Hadoop

Resumo

Grande parte dos dados provenientes da mídia social se encontram em formato de linguagem natural, tais como postagens em blogs, comentários, notícias, mensagens, etc. Este cenário gera um aumento na demanda por técnicas de aprendizado de máquina e processamento de linguagem natural tais como classificadores e modelos de sequência. O nosso projeto busca desenvolver este tipo de técnica de forma distribuída e escalável para grandes volumes de dados e com foco em português. Queremos aplicar essas tecnologias na construção de um sistema de extração de significado e monitoramento de mídia social. O Hadoop é uma plataforma open-source que foi inicialmente inspirada por tecnologias desenvolvidas pelo Google, como o framework Map-Reduce e o Google File System. O Yahoo! foi seu maior contribuidor no início e continua utilizando a plataforma de forma intensiva em seu negócio. A crescente adoção do Hadoop tanto por grandes empresas internacionais como também por um grupo crescente de desenvolvedores independentes resultou na criação de um rico reservatório de código, ferramentas e funcionalidades. Esse é o motivo pelo qual ele foi escolhido como plataforma para o desenvolvimento dos algoritmos distribuídos deste projeto. Na base do sistema Hadoop está o framework Map-Reduce. Este framework é focado no processamento de dados armazenados de forma distribuída, onde cada nó do sistema armazena um ou mais segmentos do dado. A primeira fase (Map) consiste na leitura de um segmento do dado e no processamento local em cima deste segmento, sem levar em consideração os demais. Na segunda fase (Reduce) os resultados da fase de Map para cada segmento são agregados e o resultado geral é computado. Desta forma, além de permitir o processamento distribuído, o Map-Reduce ajuda a minimizar o tráfego de dados na rede. O objetivo concreto deste projeto é de implementar técnicas avançadas de aprendizado de máquina e processamento de linguagem natural em cima do framework Map-Reduce. Como resultado, esperamos contribuir de forma significativa ao avanço na capacidade de extrair informações de alto valor agregado de grandes massas de dados não-estruturados, especialmente de textos escritos na língua portuguesa. A aplicação comercial deste avanço tecnológico será uma plataforma de monitoramento de mídia social cujas funcionalidades ajudarão os nossos clientes entenderem em tempo real a evolução do mercado no qual atuam, ganharem informações relevantes sobre decisões estratégicas a serem tomadas e intervirem de forma imediata para conter relatos negativos ou multiplicar o impacto de relatos positivos. (AU)