Casa na colina, em manhã de nevoeiro.
Estou a divertir-me mais do que deveria com o Deep Daze. Esta ferramenta permite usar as capacidades dos algoritmos CLIP (geração automática de categorias e etiquetas a partir de reconhecimento de imagens) e SIREN. O resultado? Uma ferramenta que nos permite dar ao algoritmo uma frase de input, e ele, seguindo uma sequência de iterações, nos apresenta um resultado em imagem. Ou seja, geração de imagens a partir de texto.
O código para correr o Deep Daze está no Github, mas confesso que prefiro este bloco de notas Colab que simplifica o processo: basta importar as bibliotecas Python, alterar os parâmetros desejados (texto inicial, tamanho da imagem, número de iterações, razão de aprendizagem): Colab Deep Daze.
Para correr este algoritmo, é necessário um computador com placa gráfica dedicada, compatível com CUDA, e requer uma quantidade generosa de VRAM (4gb no mínimo).
De resto, basta indicar um input - uma frase descritiva, em inglês, e pode ser muito surreal. O algoritmo começa com uma difusa imagem cinzento nublado e vai correndo iterações sucessivas até apresentar o que julga ser o indicado pelo utilizador. Os resultados, como podem ver neste post, são interessantes e surpreendentes. Os títulos das imagens são os inputs que dei ao algoritmo.
Céu azul tocando uma guitarra.Memória de um cão a viajar no tempo.
Retrato de pessoa confusa, num céu de profundo vermelho.Infelizmente, estão em resolução de 512x512. A minha placa gráfica não tem capacidade suficiente para ir a 1024x1024.