Google es una compañía que tiene gran parte de su atención enfocada al desarrollo de la inteligencia artificial y su más reciente apuesta por liderar este sector fue el lanzamiento de Whisk, una herramienta experimental de su programa Google Labs que busca cambiar la forma en la que actualmente interactuamos con generadores de imágenes de IA.
A diferencia de los modelos tradicionales que dependen exclusivamente de descripciones textuales que son conocidas como prompts, este sistema utiliza imágenes como indicaciones y no necesita palabras.
No obstante, Google reconoce que Whisky solo extraerá información de “algunas características clave” de la imagen original, por lo que el resultado generado "puede tener una altura, un peso, un peinado o un tono de piel diferentes".
Para entender por qué, es importante tener presente que la herramienta utiliza el modelo de lenguaje Gemini para escribir un título detallado de la imagen de origen que cargas. Luego, introduce esa descripción en el generador Imagen 3 y finalmente el resultado es una imagen basada en las palabras de Gemini sobre tu imagen y no en la imagen de origen en sí.
Cómo funciona Whisk
Se trata de una plataforma que permite a los usuarios generar imágenes utilizando otras imágenes como referencia, con el objetivo de facilitar la creación al evitar la necesidad de redactar complejas descripciones textuales. En esencia, el usuario puede subir imágenes que sirvan como base para definir:
- El sujeto: El elemento principal o protagonista de la imagen generada.
- El escenario: El entorno o contexto donde se desarrollará la escena.
- El estilo: La estética visual, como un dibujo animado, un retrato realista o una pintura abstracta.
Adicionalmente, permite combinar múltiples imágenes para cada uno de estos aspectos, ofreciendo resultados versátiles y personalizables. Mientras que si no cuentas con imágenes propias, Google incluye un botón de “dados” que genera automáticamente opciones visuales (también creadas por IA) para usar como base.
El modelo también crea un texto descriptivo para cada imagen generada. Este texto es editable, lo que te brinda control sobre el resultado final y te permite iterar rápidamente hasta lograr lo que imaginas.
Es un enfoque a la exploración visual
Google enfatiza que Whisk no está diseñado para ediciones precisas al nivel de un software de edición de imágenes. En cambio, su objetivo es fomentar la exploración visual rápida y divertida.
Es por ello que está dirigido a artistas, diseñadores, creativos y cualquiera que busque una herramienta para generar ideas visuales rápidamente. Para la tecnológica se trata de un complemento para la fase conceptual de proyectos creativos, perfecta para probar múltiples ideas sin gastar tiempo en descripciones textuales extensas.
Por ahora, Whisk está disponible exclusivamente en Estados Unidos como parte de Google Labs y si estás interesado en probar esta innovadora herramienta, puedes unirte al programa experimental visitando su página oficial.
Veo 2: una nueva dimensión en generación de video
Además del lanzamiento de Whisk, Google presentó Veo 2, la última actualización de su modelo de generación de video.
Este modelo promete mejorar la comprensión de conceptos cinematográficos y reducir errores comunes en modelos anteriores, como la generación de elementos visuales inconsistentes (por ejemplo, dedos extra).
Inicialmente, Veo 2 estará disponible en Google VideoFX y, más adelante, se integrará con YouTube Shorts.
Ver 0 comentarios