Resumo
Buscamos com o córpus Carolina dar um passo em direção a levar o Processamento de Linguagem Natural em Português ao estado da arte mundial, a fim de efetivamente tirar o português da condição de língua de poucos recursos ("low-resource language"). Além de contar com volume robusto, atualmente com mais de 800 milhões de tokens distribuídos em mais de 2 milhões de textos, para a criação do…