Resumo
Neste trabalho, investigamos o problema do alinhamento interno, recentemente formalizado. Em termos gerais, alinhar uma inteligência artificial é construí-la ou ajustá-la de forma a garantir que as suas saídas estão de acordo com as preferências humanas. O alinhamento interno é uma subtarefa desse exercício, em que se trata o sistema como um mecanismo de otimização que é, por sua vez, oti…