| Processo: | 19/09807-0 |
| Modalidade de apoio: | Auxílio à Pesquisa - Regular |
| Data de Início da vigência: | 01 de agosto de 2019 |
| Data de Término da vigência: | 31 de julho de 2021 |
| Área do conhecimento: | Interdisciplinar |
| Pesquisador responsável: | Sandra Maria Aluísio |
| Beneficiário: | Sandra Maria Aluísio |
| Instituição Sede: | Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil |
| Município da Instituição Sede: | São Carlos |
| Pesquisadores associados: | Elisângela Nogueira Teixeira ; Erica dos Santos Rodrigues ; Gustavo Henrique Paetzold ; Katerina Lukasova ; Maria da Graca Campos Pimentel ; Maria Teresa Carthery Goulart ; RENÊ ALBERTO MORITZ DA SILVA E FORSTER |
| Assunto(s): | Processamento de linguagem natural Psicolinguística Leitura |
| Palavra(s)-Chave do Pesquisador: | Complexidade Sentencial | Corpora publicamente disponíveis | Eye-Tracking | Leitura | Processamento de Línguas Naturais | psicolinguística | Psicolinguística e Processamento de Línguas Naturais |
Resumo
Atualmente, corpora de rastreamento ocular são frequentemente utilizados no estudo de custos de processamento de estruturas linguísticas para, por exemplo, (i) avaliar modelos e métricas de dificuldade sintática, (ii) para melhorar ou avaliar modelos computacionais de simplificação via compressão sentencial e (iii) avaliar a qualidade da tradução automática com métricas objetivas. No entanto, existem poucos destes recursos, para um pequeno número de idiomas, por exemplo, inglês (Luke e Christianson, 2018; Cop et al., 2017), inglês e francês (Kennedy et al., 2013), alemão (Kliegl et al. ., 2004), russo (Laurinavichyute et al., 2018), hindi (Husain et al., 2015) e chinês (Yan et al., 2010). Para o português, não existe um grande corpus de rastreamento ocular com normas de previsibilidade como os citados acima. Essa é uma grande lacuna que impede o avanço da pesquisa nas áreas de Psicologia Cognitiva, Psicolinguística e Processamento de Línguas Naturais (PLN). Neste projeto, temos dois objetivos: (i) criar e disponibilizar publicamente um grande corpus de movimentos oculares da leitura silenciosa de parágrafos curtos em Português, por estudantes do ensino superior no Brasil, e com normas de previsibilidade que estimam a previsibilidade da forma ortográfica (teste Cloze tradicional), da informação morfossintática e semântica para cada palavra no parágrafo, e (ii) contribuir para a divulgação de pesquisas utilizando a técnica de movimentação ocular nas áreas da Psicolinguística e do PLN. A metodologia para o desenvolvimento do corpus RASTROS seguirá os mesmos passos do projeto Provo (Luke e Christianson, 2018), que usou parágrafos curtos de vários gêneros; leitura de 55 parágrafos para o teste de rastreamento ocular e 5 parágrafos para o teste Cloze, sendo que cada palavra do córpus é lida por pelo menos 40 alunos. Para o RASTROS, os 50 parágrafos do córpus foram retirados de várias fontes dos gêneros jornalístico e de divulgação científica, na proporção de 35% para notícias de jornal e 15% para as de divulgação científica. Os 50 parágrafos foram selecionados de um córpus maior de 100 parágrafos para contar com a maior diversidade de fatores linguísticos relevantes para a avaliação de custos de processamento, com reflexo no processo de leitura: (i) complexidade estrutural do período (períodos simples vs. compostos); (ii) transitividade verbal; (iii) animacidade do sujeito e do objeto; (iv) tipos de sentenças (ativas/passivas/relativas); (v) mecanismos de construção de relações de correferência, entre outros. RASTROS utilizará um eye-tracker de alta acurácia - o EyeLink 1000 Desktop Mount. As apresentações dos estímulos serão feitas pelo software Experiment Builder, o processamento dos dados inicialmente será feito pelo Data Viewer ou outros softwares que se integram como Psychtoolbox-3 (Matlab) e PyGaze. Também iremos avaliar e comparar a captura dos movimentos oculares com o headset FOVE, que custa 2% do valor do equipamento EyeLink 1000, para tentar aumentar a sua utilização em áreas de pesquisa da Psicolinguística e do PLN. Usaremos 4 métodos de similaridade semântica: Latent Semantic Analysis (LSA) (Landauer e Dumais 1997), Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) e Random Projections (RP) (Sahlgren, 2005), além de modelos de embeddings treinados no córpus de 1.3 bilhão de palavras do trabalho de Hartmann et al. (2017). As palavras serão anotadas com categorias morfossintáticas do tagger automático nlpnet, baseado em redes neurais (Fonseca et al., 2015). (AU)
| Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
| Mais itensMenos itens |
| TITULO |
| Matéria(s) publicada(s) em Outras Mídias ( ): |
| Mais itensMenos itens |
| VEICULO: TITULO (DATA) |
| VEICULO: TITULO (DATA) |