Busca avançada
Ano de início
Entree

Carolina 2.0: aprimoramento e ampliação de um córpus robusto em português brasileiro contemporâneo com informações de procedência e tipologia

Processo: 24/13270-0
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Data de Início da vigência: 01 de setembro de 2024
Data de Término da vigência: 31 de julho de 2025
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Acordo de Cooperação: IBM Brasil
Pesquisador responsável:Marcelo Finger
Beneficiário:Mariana Lourenço Sturzeneker
Instituição Sede: Instituto de Matemática e Estatística (IME). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Empresa:Universidade de São Paulo (USP). Centro de Inovação da USP (INOVA)
Vinculado ao auxílio:19/07665-4 - Centro de Inteligência Artificial, AP.eScience.CPE
Assunto(s):Português do Brasil   Tipologia   Linguística computacional
Palavra(s)-Chave do Pesquisador:Córpus Aberto | Português brasileiro | procedência | tipologia | Versionamento | Linguística Computacional

Resumo

Buscamos com o córpus Carolina dar um passo em direção a levar o Processamento de Linguagem Natural em Português ao estado da arte mundial, a fim de efetivamente tirar o português da condição de língua de poucos recursos ("low-resource language"). Além de contar com volume robusto, atualmente com mais de 800 milhões de tokens distribuídos em mais de 2 milhões de textos, para a criação do córpus desenvolvemos uma metodologia singular, que combina web-crawling, marcação de tipologia, rastreio de proveniência e checagem de direitos autorais, sendo essa combinação metodológica original denominada WaC-wiPT: Web as Corpus with Provenance and Typology Information (Web as Corpus com informações de Proveniência e Tipologia). Assim, cada texto conta com um rico cabeçalho anotado segundo as diretrizes TEI (Text Encoding Initiative), que garantem uma melhor padronização na anotação dos metadados do córpus. Com essa busca de uma cuidadosa anotação de metadados no Carolina, pretendemos que esse seja também uma ferramenta de grande utilidade para a área de Linguística. Desse modo, o impacto do projeto reside na criação de recursos computacionais e linguísticos para o português brasileiro contemporâneo, visando a utilização desses em pesquisas futuras em ambas as áreas. O córpus Carolina é desenvolvido de modo contínuo, utilizando um modelo de versionamento com a finalidade de implementar melhorias e ampliar gradativamente seu volume. Estimamos que, com o lançamento da próxima versão do córpus (versão 2.0) atingiremos a marca de 1 bilhão de tokens e, além disso, implementaremos novos metadados e aumentaremos a qualidade de alguns dos textos já presentes no córpus, aprimorando os processos de extração de dados. O presente projeto será dedicado a essa finalidade. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)