Busca avançada
Ano de início
Entree

Anotação de papéis semânticos em tweets do mercado financeiro: definição de formatos e reutilização de recurso lexical

Processo: 25/07948-7
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de agosto de 2025
Data de Término da vigência: 31 de julho de 2026
Área de conhecimento:Linguística, Letras e Artes - Linguística - Teoria e Análise Lingüística
Pesquisador responsável:Ariani Di Felippo
Beneficiário:Pedro Henrique Silva
Instituição Sede: Centro de Educação e Ciências Humanas (CECH). Universidade Federal de São Carlos (UFSCAR). São Carlos , SP, Brasil
Assunto(s):Corpus
Palavra(s)-Chave do Pesquisador:corpus | estrutura de argumento | formato de anotação | papel semântico | recurso lexical | tweet | Processamento Automático de Línguas Naturais

Resumo

A relevância do "conteúdo gerado por usuários" (CGU) de redes sociais tem motivado a construção de corpora anotados para o desenvolvimento de ferramentas capazes de processar CGU (p.ex.: taggers e parsers). Para o português, destaca-se o DANTEStocks que, com ~4 mil tweets (atuais posts do X) sobre o mercado financeiro, é o primeiro tweebank anotado segundo o modelo gramatical Universal Dependencies (UD). Neste projeto, busca-se inserir uma camada de anotação de papéis semânticos para o futuro desenvolvimento de métodos de Semantic Role Labelling, que buscam identificar o conteúdo básico (quem fez o quê, para quem, onde, quando, etc.) dos enunciados. O ponto de partida será o repositório NounBank.DS, no qual as predicações nominais do DANTEStocks estão descritas segundo o projeto NomBank do inglês. Sua metodologia, derivada do amplamente difundido PropBank, caracteriza-se pelo emprego de um conjunto reduzido de etiquetas (tagset) para os argumentos centrais dos predicadores (Arg0 a Arg5) e de um mais amplo para o modificadores, sendo que todos esses rótulos são adicionados à camada de anotação sintática dos corpora. Para a conversão dos dados do NounBank.DS (atualmente em formato html e json) para uma camada de anotação do DANTEStocks, explorar-se-ão o método manual e sobretudo o semiautomático baseado nas atuais técnicas de Engenharia de Prompt. Antes, porém, será necessário definir um formato de anotação semântica e um formato de arquivo para unificar a anotação UD aos papéis semânticos.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)