| Processo: | 23/10398-3 |
| Modalidade de apoio: | Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE |
| Data de Início da vigência: | 01 de abril de 2024 |
| Data de Término da vigência: | 31 de dezembro de 2024 |
| Área do conhecimento: | Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação |
| Pesquisador responsável: | Aloisio Mota Rodrigues Junior |
| Beneficiário: | Aloisio Mota Rodrigues Junior |
| Empresa: | RTM Infraestrutura em Tecnologia da Informação Eireli |
| CNAE: |
Desenvolvimento de programas de computador sob encomenda
Consultoria em tecnologia da informação Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet |
| Pesquisadores associados: | Luiz Guilherme Miguel Jucá |
| Bolsa(s) vinculada(s): | 24/01554-4 - HUB FUNDOS - Plataforma computacional para a padronização de informações na indústria de fundos de investimento, BP.TT |
| Assunto(s): | Processamento de linguagem natural Transformação digital |
| Palavra(s)-Chave do Pesquisador: | Hub Fundos | Indústria de Fundos | Iso 20022 | Processamento de Linguagem Natural | Transformação Digital | Tecnologia para o mercado Financeiro |
Resumo
Nos últimos dez anos, a indústria de Fundos no Brasil tem crescido continuamente dois dígitos ao ano. Apesar do constante crescimento, a indústria ainda não está na era digital: papel, telefone, e-mail e tarefas manuais dominam o cotidiano das instituições e dos cotistas (investidores detentores de cotas de fundo), sejam eles pessoas físicas ou jurídicas. Vale ressaltar que, além dos cotistas, a indústria de fundos é um ecossistema complexo, composto basicamente por gestores, distribuidores, administradores fiduciários, custodiantes, controladores de passivo, controladores de ativo, auditores, reguladores e autorreguladores e câmaras de compensação e liquidação. Com o elevado número de atores no ecossistema desta importante indústria, torna-se indispensável a gestão fluida das informações pertinentes ao seu amplo funcionamento. Neste contexto, um dos principais desafios está em estabelecer uma comunicação eficaz e eficiente entre os diferentes participantes nos processos de negócio que envolve a gestão de fundos de investimento, de modo que a padronização de toda a documentação disponível, e por conseguinte das informações trocadas entre todos os atores, se caracteriza por um eixo de investigação necessário e crucial. Sabe-se que muitas das informações oriundas das diferentes fontes estão em um formato não-estruturado, o que torna ainda mais onerosa a tarefa de leitura, identificação e posterior cadastro dos dados de interesse. Muitos termos e diferentes domínios de negócios oriundos da indústria de fundos de investimento devem ser avaliados e estruturados conforme o padrão de mensagens da ISO 20022,que trata-se de uma norma internacional que estabelece um padrão para troca de mensagens no setor financeiro. Essa norma define um idioma universal para as comunicações financeiras, facilitando a interoperabilidade entre diferentes sistemas, melhorando a eficiência das transações e possibilitando avanços significativos na indústria financeira global. Logo, uma ferramenta computacional que seja capaz de incorporar recursos para a padronização de tais informações seria um diferencial neste nicho de mercado, em especial para o idioma português. Neste sentido, o presente projeto de pesquisa científica e tecnológica propõe o desenvolvimento de um algoritmo computacional fundamentado em uma técnica do campo do Processamento de Linguagem Natural (NLP), denominada Reconhecimento de Entidades Nomeadas (sigla NER - Named Entity Recognition) e um algoritmo de aprendizagem profunda pré-treinado (BERT), a fim de extrair automaticamente os diferentes termos e expressões relacionadas as mensagens coletadas de diferentes fontes da aludida indústria de fundos. As etapas previstas no projeto contemplam a coleta de dados em documentos cujos textos estejam digitalizados, mas também textos extraídos de documentos impressos, além de informações transcritas a partir de áudios obtidos de reuniões e telefonemas, por exemplo. Após a construção de um único repositório de dados em texto (corpus textual), o projeto prevê ao menos três etapas seguintes, cuja finalidade será investigar as melhores abordagens para o pré-processamento e a limpeza do conjunto de dados e em especial o desenvolvimento de um modelo de linguagem natural do tipo NER-BERT. O modelo NER deverá ser treinado e validado, de tal forma que os principais elementos identificados nas mensagens trocadas sejam rotulados e padronizados de acordo com o preconizado pela norma ISO 20022. (AU)
| Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
| Mais itensMenos itens |
| TITULO |
| Matéria(s) publicada(s) em Outras Mídias ( ): |
| Mais itensMenos itens |
| VEICULO: TITULO (DATA) |
| VEICULO: TITULO (DATA) |