Resumo
Espaços de representação multidimensionais por treinamentos contrastivos, que envolvem imagens e textos, são propostos como uma forma de aproximar conceitos relacionados entre sinais modais. Alguns trabalhos expandem este mesmo conceito para áudio, fala ou sons ambientes, através da aproximação com sua descrição. Porém, até o momento, nenhum trabalho disponível na literatura relaciona con…