Busca avançada
Ano de início
Entree

Corpus brasileiro: uma coletânea online de um bilhão de palavras do português brasileiro contemporâneo

Processo: 08/00944-0
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de maio de 2008
Data de Término da vigência: 30 de abril de 2010
Área do conhecimento:Linguística, Letras e Artes - Linguística - Linguística Aplicada
Pesquisador responsável:Antonio Paulo Berber Sardinha
Beneficiário:Antonio Paulo Berber Sardinha
Instituição Sede: Pró-Reitoria de Pós-Graduação (PRPG). Pontifícia Universidade Católica de São Paulo (PUC-SP). São Paulo , SP, Brasil
Assunto(s):Português do Brasil 
Palavra(s)-Chave do Pesquisador:Linguística de Corpus | Lingüística de Corpus

Resumo

O presente projeto visa a construir e disponibilizar online o Corpus brasileiro, que será composto por um bilhão de palavras de português brasileiro contemporâneo, de vários tipos de linguagem. Atualmente, há uma lacuna no tocante a um corpus de português da dimensão que propomos, com variedade de gêneros e registros, que seja disponível na rede. Os maiores corpora online são o Corpus do Português, com 45 milhões (http://www.corpusdoportugues.org/), da Universidade de Brigham Young (EUA), cujo conteúdo referente ao português brasileiro do século XX é de apenas 12.009.402 palavras, e o Lácio-Web, com 10 milhões de palavras de português brasileiro contemporâneo, criado pelo NILC (Núcleo Interinstitucional de Lingüística Computacional; http://www.nilc.icmc.usp.br/lacioweb). A metodologia consiste na (1) busca e coleta de fontes textuais online e offline, (2) estruturação do material em bases de dados SQL e (3) disponibilização do corpus com interface de busca PHP. Usaremos como base a proposta de Davies (2005 inter alia), que prevê o uso de bases de dados SQL para acesso online a corpora e que relata resultados satisfatórios em termos de velocidade de busca e facilidade de uso. A arquitetura de montagem de corpora em bases de dados estruturadas proposta por Davies faz parte de vários projetos de disponibilização de grandes corpora online, como o British National Corpus (100 milhões de palavras; http://corpus.byu.edu/bnc/) e o recente BYU Corpus of American English (326 milhões de palavras; http://www.americancorpus.org/). O usuário do corpus terá acesso a informações sobre frequência de ocorrência dos termos de sua busca além de linhas de concordância onde os termos ocorrem; ele não terá acesso ao texto integral, pois isso violaria leis de direitos autorais (Besek, 2003). A necessidade de atingir o nível de um bilhão de palavras se deve ao fato de que, sendo um corpus geral apenas uma amostra de uma população imensa (Berber Sardinha, 2004), quanto maior e mais variada essa amostra, mais representativa ela será. O impacto social do Corpus Brasileiro pode ser significativo, colocando ao dispor dos cidadãos do país e do exterior uma vasta quantidade de informação sobre a língua portuguesa. Os usuários do corpus incluem linguistas, pesquisadores da linguagem, professores de língua materna, estrangeira, de redação, jornalistas, escritores, roteiristas, publicitários, alunos de diversos níveis, dicionaristas, gramáticos e uma ampla gama de profissionais que lidam com a língua em uso. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)