Busca avançada
Ano de início
Entree


Determining relevance of social-media posts for forensic event analysis

Texto completo
Autor(es):
José Dorivaldo Nascimento Souza Júnior
Número total de Autores: 1
Tipo de documento: Tese de Doutorado
Imprenta: Campinas, SP.
Instituição: Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Data de defesa:
Membros da banca:
Anderson de Rezende Rocha; Cristina Nader Vasconcelos; João Paulo Papa; Marcelo da Silva Reis; Levy Boccato
Orientador: Anderson de Rezende Rocha
Resumo

Quando um evento forense em larga escala ocorre, postagens relacionadas a este evento são rapidamente compartilhadas em redes sociais, oferecendo informações potencialmente valiosas para uma posterior investigação forense, como diferentes perspectivas em vários momentos do evento. No entanto, a análise de dados de mídia social sobre um evento é frequentemente dificultada pela grande quantidade de itens irrelevantes recuperados durante o processo de coleta, como memes ou imagens de eventos anteriores. A filtragem manual desses conjuntos de dados é inviável, pois eles podem conter milhares de itens. Portanto, neste trabalho, nós investigamos técnicas de aprendizado de máquina que dependem de poucos dados rotulados para agilizar esse processo e reduzir o esforço humano necessário. Nosso trabalho seguiu três direções principais. A primeira focou na representação em vetores de caracteríscas de postagens para classificação, experimentando diferentes redes neurais pré-treinadas. Um único descritor pode ser insuficiente para classificar postagens de mídia social, pois elas tendem a ser multimodais. Além disso, mesmo para classificação visual (unimodal), aspectos distintos de uma imagem podem variar em relevância para a compreensão do evento. Assim, exploramos a combinação de vários modelos de imagem e texto com técnicas de fusão para consolidar diferentes representações em um único descritor para posterior classificação. A segunda abordagem abordou a classificação com poucas amostras anotadas. Rotular centenas ou milhares de postagens para um novo evento é custoso e frequentemente impraticável em cenários reais. Portanto, modelos para esse problema devem ser capazes de aprender usando apenas algumas anotações. Nesse sentido, estudamos técnicas semi-supervisionadas, de métodos baseados em grafos a pseudo-rotulagem. Métodos semi-supervisionados geralmente mitigam a escassez de anotações incorporando conhecimento de dados não rotulados no modelo. Além disso, exploramos o uso de dados de eventos anteriores para diversificar o conjunto de treinamento com base na hipótese de que os dados não relacionados de eventos diferentes podem compartilhar similaridades de uma forma que os dados relacionados não compartilham. Nosso último caminho de pesquisa como objetivo introduzir interatividade no processo. Uma outra maneira de abordar a disponibilidade limitada de dados rotulados é focar em instâncias-chave que fornecem o maior valor para o processo de treinamento. A partir de um conjunto de dados inicialmente não rotulado, nós objetivamos pegar alguns dados usando seleção de instância e solicitamos os rótulos desse subconjunto a um oráculo, que, em um cenário real, poderia ser o especialista forense operando o sistema. Após o treinamento inicial usando os rótulos adquiridos, testamos aprendizado ativo usando redes neurais bayesianas, para levar em consideração a incerteza do modelo sobre as instâncias como um critério de seleção adicional. Por meio de uma série de experimentos, demonstramos que essas direções de pesquisa aumentam significativamente o desempenho geral dos métodos automatizados para essa tarefa. Nossas descobertas sugerem que as abordagens adotadas neste trabalho melhoram a análise de conjuntos de dados de mídia social em larga escala, tornando as investigações forenses mais viáveis, eficientes e precisas (AU)

Processo FAPESP: 20/02241-9 - Reconhecimento de padrões e detecção de subeventos de destaque em dados de fontes heterogêneas
Beneficiário:José Dorivaldo Nascimento Souza Júnior
Modalidade de apoio: Bolsas no Brasil - Doutorado Direto