| Processo: | 25/01187-4 |
| Modalidade de apoio: | Bolsas no Brasil - Iniciação Científica |
| Data de Início da vigência: | 01 de junho de 2025 |
| Data de Término da vigência: | 31 de maio de 2026 |
| Área de conhecimento: | Ciências da Saúde - Medicina - Cirurgia |
| Pesquisador responsável: | Marcel Jun Sugawara Tamaoki |
| Beneficiário: | Karolina Stephany Pereira Ferreira |
| Instituição Sede: | Escola Paulista de Medicina (EPM). Universidade Federal de São Paulo (UNIFESP). Campus São Paulo. São Paulo , SP, Brasil |
| Assunto(s): | Educação médica Exames médicos Inteligência artificial |
| Palavra(s)-Chave do Pesquisador: | ChatGPT-o1-pro | ChatGPT-4 | educação médica | exames médicos | Gemini | inteligência artificial | Meta Llama | modelos de linguagem | Sbcoc | treinamento de IA | Ombro e Cotovelo |
Resumo A inteligência artificial (IA) tem se consolidado como uma ferramenta promissora na educação médica e na prática clínica. Este projeto de iniciação científica tem como objetivo avaliar e comparar o desempenho de cinco modelos avançados de IA - ChatGPT-4, ChatGPT-4 treinado com a literatura base da Sociedade Brasileira de Cirurgia do Ombro e Cotovelo (SBCOC), ChatGPT-o1-pro, GEMINI (Google) e Meta LLaMA 3.1 - nas provas oficiais da SBCOC aplicadas nos anos de 2021, 2022 e 2023. Cada exame é composto por 50 questões de múltipla escolha, contendo conteúdo exclusivamente textual ou associado a imagens clínicas. Para aprovação, exige-se um mínimo de 50% de acertos.A metodologia envolve a aplicação padronizada das 150 questões aos cinco modelos, com uso de um prompt uniforme e, quando aplicável, o fornecimento das imagens correspondentes. A análise será realizada em quatro frentes principais: (1) comparação da taxa de acertos dos modelos com o desempenho médio dos candidatos humanos; (2) avaliação da confiabilidade das fontes utilizadas nas respostas; (3) verificação da capacidade dos modelos em lidar com questões que exigem interpretação de imagens; (4) comparação entre os diferentes modelos de IA avaliados, incluindo a análise do impacto no desempenho do mesmo modelo (ChatGPT-4) em dois treinamentos: um com acesso somente à literatura da SBCOC e outro com acesso livre à internet. As análises estatísticas incluirão o teste do qui-quadrado e a análise de variância (ANOVA), com nível de significância de p < 0,05.O estudo busca identificar as forças e limitações de cada modelo frente a um exame técnico de alto nível, contribuindo para a compreensão do papel da IA em avaliações especializadas, com potencial aplicação na educação médica, na prática assistencial e no desenvolvimento de ferramentas de apoio à decisão clínica. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |