Bolsa 19/24041-4 - Aprendizagem profunda, Redes neurais (computação) - BV FAPESP
Busca avançada
Ano de início
Entree

#PraCegoVer: audiodescrição automática de imagens

Processo: 19/24041-4
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de janeiro de 2020
Data de Término da vigência: 31 de dezembro de 2021
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Sandra Eliza Fontes de Avila
Beneficiário:Gabriel Oliveira dos Santos
Instituição Sede: Instituto de Computação (IC). Universidade Estadual de Campinas (UNICAMP). Campinas , SP, Brasil
Vinculado ao auxílio:13/08293-7 - CECC - Centro de Engenharia e Ciências Computacionais, AP.CEPID
Assunto(s):Aprendizagem profunda   Redes neurais (computação)   Audiodescrição   Processamento de linguagem natural   Pessoas com deficiência visual
Palavra(s)-Chave do Pesquisador:Deep Learning | Image captioning | Processamento de Linguagem Natural | Redes Neurais Profundas | Redes Neurais Profundas

Resumo

A Internet tem se tornado cada vez mais acessível, alcançando os mais diversos públicos. Entretanto, pouco se tem avançado na questão da inclusão das pessoas com deficiência, e o cenário se torna ainda pior quando se trata especificamente de deficiência visual, dado que grande parte do conteúdo publicado é exclusivamente visual (por exemplo, fotos, imagens publicitárias). Diariamente, os deficientes visuais sofrem com a violação de seu direito ao acesso à Internet, que é garantido pelo Art. 4º, inciso I do Marco Civil da Internet. Assim, descrever de forma automática o conteúdo de imagens usando sentenças bem formuladas é uma tarefa importante para a inclusão de pessoas com deficiência visual na Internet. Todavia, realizar esse tipo de descrição, problema conhecido como image captioning, ainda é um grande desafio. Image captioning tem como objetivo descrever não apenas os objetos contidos na imagem, mas também a relação semântica entre eles. Dessa forma, além de métodos de interpretação visual, modelos linguísticos são necessários para expressar as questões semânticas descritas. Recentemente, as postagens de imagens nas redes sociais estão sendo publicadas com a hashtag #PraCegoVer, que consiste na breve descrição do conteúdo visual da imagem. O projeto PraCegoVer, iniciado em 2012, visa a disseminação da cultura da acessibilidade nas redes sociais a partir da audiodescrição de imagens (tradução do conteúdo visual para o textual, obedecendo aos critérios de acessibilidade) para apreciação das pessoas com deficiência visual. Inspirado nesse movimento, este projeto de Iniciação Científica visa investigar técnicas de Aprendizado de Máquina para\emph{image captioning} para audiodescrição de imagens. Os objetivos principais são: 1) construir uma base de dados multimodal, composta por imagens e suas audiodescrições anotadas em Português (maior parte das bases são voltadas para a língua inglesa); 2) estudar e propor melhorias para as arquiteturas de redes neurais para image captioning; 3) criar um modelo para a geração automática de audiodescrição, que será validado junto a um especialista na área. Como consequência, esperamos incluir pessoas portadoras de deficiência visual na Internet, tornando-a mais acessível. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
DOS SANTOS, GABRIEL OLIVEIRA; COLOMBINI, ESTHER LUNA; AVILA, SANDRA. #PraCegoVer: A Large Dataset for Image Captioning in Portuguese. DATA, v. 7, n. 2, p. 27-pg., . (19/24041-4, 13/08293-7)