Auxílio à pesquisa 19/09807-0 - Processamento de linguagem natural, Psicolinguística

Processo:	19/09807-0
Modalidade de apoio:	Auxílio à Pesquisa - Regular
Data de Início da vigência:	01 de agosto de 2019
Data de Término da vigência:	31 de julho de 2021
Área do conhecimento:	Interdisciplinar

Pesquisador responsável:	Sandra Maria Aluísio
Beneficiário:	Sandra Maria Aluísio

Instituição Sede:	Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil

Município da Instituição Sede:	São Carlos

Pesquisadores associados:	Elisângela Nogueira Teixeira ; Erica dos Santos Rodrigues ; Gustavo Henrique Paetzold ; Katerina Lukasova ; Maria da Graca Campos Pimentel ; Maria Teresa Carthery Goulart ; RENÊ ALBERTO MORITZ DA SILVA E FORSTER

Assunto(s):	Processamento de linguagem natural Psicolinguística Leitura
Palavra(s)-Chave do Pesquisador:	Complexidade Sentencial \| Corpora publicamente disponíveis \| Eye-Tracking \| Leitura \| Processamento de Línguas Naturais \| psicolinguística \| Psicolinguística e Processamento de Línguas Naturais

Resumo

Atualmente, corpora de rastreamento ocular são frequentemente utilizados no estudo de custos de processamento de estruturas linguísticas para, por exemplo, (i) avaliar modelos e métricas de dificuldade sintática, (ii) para melhorar ou avaliar modelos computacionais de simplificação via compressão sentencial e (iii) avaliar a qualidade da tradução automática com métricas objetivas. No entanto, existem poucos destes recursos, para um pequeno número de idiomas, por exemplo, inglês (Luke e Christianson, 2018; Cop et al., 2017), inglês e francês (Kennedy et al., 2013), alemão (Kliegl et al. ., 2004), russo (Laurinavichyute et al., 2018), hindi (Husain et al., 2015) e chinês (Yan et al., 2010). Para o português, não existe um grande corpus de rastreamento ocular com normas de previsibilidade como os citados acima. Essa é uma grande lacuna que impede o avanço da pesquisa nas áreas de Psicologia Cognitiva, Psicolinguística e Processamento de Línguas Naturais (PLN). Neste projeto, temos dois objetivos: (i) criar e disponibilizar publicamente um grande corpus de movimentos oculares da leitura silenciosa de parágrafos curtos em Português, por estudantes do ensino superior no Brasil, e com normas de previsibilidade que estimam a previsibilidade da forma ortográfica (teste Cloze tradicional), da informação morfossintática e semântica para cada palavra no parágrafo, e (ii) contribuir para a divulgação de pesquisas utilizando a técnica de movimentação ocular nas áreas da Psicolinguística e do PLN. A metodologia para o desenvolvimento do corpus RASTROS seguirá os mesmos passos do projeto Provo (Luke e Christianson, 2018), que usou parágrafos curtos de vários gêneros; leitura de 55 parágrafos para o teste de rastreamento ocular e 5 parágrafos para o teste Cloze, sendo que cada palavra do córpus é lida por pelo menos 40 alunos. Para o RASTROS, os 50 parágrafos do córpus foram retirados de várias fontes dos gêneros jornalístico e de divulgação científica, na proporção de 35% para notícias de jornal e 15% para as de divulgação científica. Os 50 parágrafos foram selecionados de um córpus maior de 100 parágrafos para contar com a maior diversidade de fatores linguísticos relevantes para a avaliação de custos de processamento, com reflexo no processo de leitura: (i) complexidade estrutural do período (períodos simples vs. compostos); (ii) transitividade verbal; (iii) animacidade do sujeito e do objeto; (iv) tipos de sentenças (ativas/passivas/relativas); (v) mecanismos de construção de relações de correferência, entre outros. RASTROS utilizará um eye-tracker de alta acurácia - o EyeLink 1000 Desktop Mount. As apresentações dos estímulos serão feitas pelo software Experiment Builder, o processamento dos dados inicialmente será feito pelo Data Viewer ou outros softwares que se integram como Psychtoolbox-3 (Matlab) e PyGaze. Também iremos avaliar e comparar a captura dos movimentos oculares com o headset FOVE, que custa 2% do valor do equipamento EyeLink 1000, para tentar aumentar a sua utilização em áreas de pesquisa da Psicolinguística e do PLN. Usaremos 4 métodos de similaridade semântica: Latent Semantic Analysis (LSA) (Landauer e Dumais 1997), Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) e Random Projections (RP) (Sahlgren, 2005), além de modelos de embeddings treinados no córpus de 1.3 bilhão de palavras do trabalho de Hartmann et al. (2017). As palavras serão anotadas com categorias morfossintáticas do tagger automático nlpnet, baseado em redes neurais (Fonseca et al., 2015). (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:

Mais itens Menos itens

TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):

Mais itens Menos itens

VEICULO: TITULO (DATA)

Publicações científicas

(As publicações científicas contidas nesta página são originárias da Web of Science ou da SciELO, cujos autores mencionaram números dos processos FAPESP concedidos a Pesquisadores Responsáveis e Beneficiários, sejam ou não autores das publicações. Sua coleta é automática e realizada diretamente naquelas bases bibliométricas)

LEAL, SIDNEY EVALDO; LUKASOVA, KATERINA; CARTHERY-GOULART, MARIA TERESA; ALUISIO, SANDRA MARIA. . Language Resources and Evaluation, v. 56, n. 4, p. 40-pg., 2022-08-17. (19/09807-0)

LEAL, SIDNEY EVALDO; DURAN, MAGALI SANCHES; SCARTON, CAROLINA EVARISTO; HARTMANN, NATHAN SIEGLE; ALUISIO, SANDRA MARIA. . Language Resources and Evaluation, v. 58, n. 1, p. 38-pg., 2023-10-17. (19/09807-0)

URL curto