Busca avançada
Ano de início
Entree

Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a doença anemia falciforme

Processo: 08/10621-4
Linha de fomento:Bolsas no Brasil - Iniciação Científica
Vigência (Início): 01 de abril de 2009
Vigência (Término): 30 de novembro de 2010
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Cristina Dutra de Aguiar Ciferri
Beneficiário:Arthur Emanuel de Oliveira Carosia
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Computação em informática médica   Banco de dados   Mineração de dados   Mineração de texto   Data warehouse   Formato de arquivo   Armazenamento e recuperação da informação   Anemia falciforme

Resumo

Anemia falciforme é uma doença genética e hereditária que não tem cura, requerendo diagnóstico precoce e tratamento adequado para prolongar a vida do indivíduo que a possui. Embora no Brasil o estudo dessa doença seja pouco difundido, já existem artigos científicos internacionais que mostram resultados relevantes.Explorar o conhecimento relatado nestes artigos vislumbrando a identificação de padrões que indiquem relacionamentos interessantes e até então desconhecidos ou que possam ser usados para a predição de fatos futuros torna-se imprescindível para auxiliar o desenvolvimento de novas pesquisas nessa área.Um primeiro desafio de se explorar tal conhecimento é a conversão de documentos do formato PDF, formato no qual os artigos médicos sobre a anemia falciforme encontram-se disponíveis, para o formato XML, de forma a permitir a posterior aplicação de algoritmos de mineração de textos. Embora já existam ferramentas que convertem documentos entre diferentes formatos, elas apresentam diversas limitações, introduzindo diversos erros de conversão. Além disto, a maioria dessas ferramentas não é open source. Este projeto de iniciação científica visa desenvolver a ferramenta SCDtRanslator (Sickle Cell Disease tRanslator), a qual tem como objetivo converter artigos médicos científicos sobre a anemia falciforme do formato PDF para o formato XML. A ferramenta vislumbra tanto a conversão correta de características de formatação particulares comumente encontradas nos artigos sob análise quanto o posterior uso dos artigos convertidos para a extração de dados de interesse (AU)