Busca avançada
Ano de início
Entree

RASTROS: Um grande corpus com medidas de RASTReamento Ocular e normas de previsibilidade durante a leitura de estudantes do ensino Superior no Brasil

Processo: 19/09807-0
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de agosto de 2019 - 31 de julho de 2021
Área do conhecimento:Interdisciplinar
Pesquisador responsável:Sandra Maria Aluísio
Beneficiário:Sandra Maria Aluísio
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Pesq. associados: Elisângela Nogueira Teixeira ; Erica dos Santos Rodrigues ; Gustavo Henrique Paetzold ; Katerina Lukasova ; Maria da Graca Campos Pimentel ; Maria Teresa Carthery Goulart ; RENÊ ALBERTO MORITZ DA SILVA E FORSTER
Assunto(s):Processamento de linguagem natural  Psicolinguística  Leitura 

Resumo

Atualmente, corpora de rastreamento ocular são frequentemente utilizados no estudo de custos de processamento de estruturas linguísticas para, por exemplo, (i) avaliar modelos e métricas de dificuldade sintática, (ii) para melhorar ou avaliar modelos computacionais de simplificação via compressão sentencial e (iii) avaliar a qualidade da tradução automática com métricas objetivas. No entanto, existem poucos destes recursos, para um pequeno número de idiomas, por exemplo, inglês (Luke e Christianson, 2018; Cop et al., 2017), inglês e francês (Kennedy et al., 2013), alemão (Kliegl et al. ., 2004), russo (Laurinavichyute et al., 2018), hindi (Husain et al., 2015) e chinês (Yan et al., 2010). Para o português, não existe um grande corpus de rastreamento ocular com normas de previsibilidade como os citados acima. Essa é uma grande lacuna que impede o avanço da pesquisa nas áreas de Psicologia Cognitiva, Psicolinguística e Processamento de Línguas Naturais (PLN). Neste projeto, temos dois objetivos: (i) criar e disponibilizar publicamente um grande corpus de movimentos oculares da leitura silenciosa de parágrafos curtos em Português, por estudantes do ensino superior no Brasil, e com normas de previsibilidade que estimam a previsibilidade da forma ortográfica (teste Cloze tradicional), da informação morfossintática e semântica para cada palavra no parágrafo, e (ii) contribuir para a divulgação de pesquisas utilizando a técnica de movimentação ocular nas áreas da Psicolinguística e do PLN. A metodologia para o desenvolvimento do corpus RASTROS seguirá os mesmos passos do projeto Provo (Luke e Christianson, 2018), que usou parágrafos curtos de vários gêneros; leitura de 55 parágrafos para o teste de rastreamento ocular e 5 parágrafos para o teste Cloze, sendo que cada palavra do córpus é lida por pelo menos 40 alunos. Para o RASTROS, os 50 parágrafos do córpus foram retirados de várias fontes dos gêneros jornalístico e de divulgação científica, na proporção de 35% para notícias de jornal e 15% para as de divulgação científica. Os 50 parágrafos foram selecionados de um córpus maior de 100 parágrafos para contar com a maior diversidade de fatores linguísticos relevantes para a avaliação de custos de processamento, com reflexo no processo de leitura: (i) complexidade estrutural do período (períodos simples vs. compostos); (ii) transitividade verbal; (iii) animacidade do sujeito e do objeto; (iv) tipos de sentenças (ativas/passivas/relativas); (v) mecanismos de construção de relações de correferência, entre outros. RASTROS utilizará um eye-tracker de alta acurácia - o EyeLink 1000 Desktop Mount. As apresentações dos estímulos serão feitas pelo software Experiment Builder, o processamento dos dados inicialmente será feito pelo Data Viewer ou outros softwares que se integram como Psychtoolbox-3 (Matlab) e PyGaze. Também iremos avaliar e comparar a captura dos movimentos oculares com o headset FOVE, que custa 2% do valor do equipamento EyeLink 1000, para tentar aumentar a sua utilização em áreas de pesquisa da Psicolinguística e do PLN. Usaremos 4 métodos de similaridade semântica: Latent Semantic Analysis (LSA) (Landauer e Dumais 1997), Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) e Random Projections (RP) (Sahlgren, 2005), além de modelos de embeddings treinados no córpus de 1.3 bilhão de palavras do trabalho de Hartmann et al. (2017). As palavras serão anotadas com categorias morfossintáticas do tagger automático nlpnet, baseado em redes neurais (Fonseca et al., 2015). (AU)