Busca avançada
Ano de início
Entree

Sistema inteligente para análise de jurisprudência usando técnicas modernas de aprendizado profundo aplicadas ao processamento de linguagem natural

Resumo

Neste projeto, investigaremos a automação da análise de jurisprudência, que consiste em encontrar informações que suportam uma decisão favorável (ou desfavorável) a um caso em questão. A tarefa da análise de jurisprudência é fundamental para se obter um bom resultado em um processo jurídico, auxiliando na decisão estratégica e minimizando riscos. Contudo, é uma tarefa onerosa, devido ao grande volume de documentos que precisam ser analisados. Um sistema acurado que automatize parcialmente ou totalmente esta tarefa tem a possibilidade de reduzir o tempo e os custos processuais, além de aumentar a eficácia da argumentação do caso, possibilitando a adoção da melhor estratégia para aquele caso concreto. Para construir esse sistema, vemos como promissora a utilização de sistemas modernos de processamento de linguagem natural, que tiveram um enorme progresso nos últimos anos, principalmente devido aos avanços em métodos de aprendizado profundo. Entretanto, sua aplicação a tarefas especializadas, como a análise de jurisprudência, não é trivial devido à escassez de dados em português para treinar esses modelos, principalmente dados no domínio jurídico. Nossa solução para este problema será utilizar métodos de transferência de conhecimento de modelos pré-treinados em textos de domínio geral em inglês (que são abundantes) para a tarefa da análise de jurisprudência em português, cuja disponibilidade de dados de treinamento é baixa. Mais especificamente, o projeto tem como objetivo responder a seguinte pergunta: dado que há uma variedade de modelos pré-treinados em inglês e com excelente desempenho em tarefas de domínio geral, qual a forma mais eficaz de adaptar esses modelos para a tarefa de análise de jurisprudência em português do Brasil? A resposta a essa pergunta nos possibilitará desenvolver e aplicar sistemas de processamento de linguagem natural à novas tarefas da área jurídica de maneira rápida e barata. As técnicas de transferência de conhecimento que iremos investigar incluem: 1) tradução automática de conjunto de dados de treino do inglês para o português; 2) tradução automática em tempo de inferência de entradas e saídas de modelos treinados em inglês; 3) transferência de conhecimento e vocabulário de baixo custo; 4) pré-treinamento em corpus jurídico brasileiro. A avaliação da eficácia desses métodos será feita na tarefa de análise de jurisprudência, tanto em inglês quanto em português. O dataset em português será construído durante este projeto e será um subproduto que poderá ser utilizado em projetos futuros. Os resultados dos experimentos descritos acima nos orientarão sobre a melhor metodologia para se desenvolver o sistema. Do ponto de vista econômico, o melhor cenário é aquele em que sistemas existentes treinados em corpora e tarefas abundantes desempenham eficazmente em corpus e tarefas específicas sem nenhuma alteração. O pior cenário é quando um novo sistema precisa ser desenvolvido praticamente do zero para cada nova tarefa. Acreditamos que, na prática, os métodos para desenvolver esses sistemas se situam entre os dois cenários, porém a identificação de qual é o esforço total necessário é uma das questões que iremos responder com este projeto. O conhecimento adquirido nesse projeto nos orientará no desenvolvimento de futuros produtos de processamento de linguagem natural para a área jurídica. Esta pesquisa pode ser considerada também como um primeiro passo no desenvolvimento de sistemas para Jurimetria. (AU)