Categories: CienciaNoticias

Una guía para principiantes sobre el diseño rápido de modelos generativos de texto a imagen

Aprenda estos rápidos trucos de ingeniería antes de desperdiciar sus créditos de prueba gratuitos

Si ya ha jugado con un modelo generativo de texto a imagen, sabe lo difícil que es producir una imagen que le guste. Con el lanzamiento de Stable Diffusion, Midjourney y DALL·E2, la gente ha estado diciendo que la ingeniería rápida podría convertirse en una nueva profesión. Porque DALL·E2, el servidor Midjourney Discord y DreamStudio de StabilityAI tienen un modelo de precios basado en créditos. [3,5,7]se incentiva a los usuarios a usar la menor cantidad posible de indicaciones para obtener una imagen que les guste.

Se incentiva a los usuarios a usar la menor cantidad posible de indicaciones.

Este artículo le brindará una guía rápida para la ingeniería rápida antes de que desperdicie todos sus créditos de prueba gratuitos. Esta es una guía general y existen diferencias entre DALL·E2, Stable Diffusion y Midjourney. Por lo tanto, es posible que no todos los consejos se apliquen al modelo generativo específico que está utilizando. Usaremos el indicador base “un gato con un par de gafas de sol” similar a [11]. Las imágenes serán producidas con DreamStudio (GUI for Stable Diffusion) con el configuración predeterminada y una semilla fija de 42 para generar imágenes de aspecto similar para comparar. Para obtener más inspiración sobre la ingeniería de avisos, puede echar un vistazo a https://lexica.art/, que es una colección de avisos y sus imágenes resultantes producidas con Stable Diffusion. Los modelos son modelos generativos de texto a imagen o de imagen a imagen guiados por texto. En ambos casos, al menos una entrada es un aviso, que es una descripción de la imagen que desea generar.

Duración del aviso

El aviso debe ser relativamente corto. Si bien Midjourney permite hasta 6000 caracteres, las indicaciones deben permanecer por debajo de 60 palabras [6]. De manera similar, las indicaciones para DALL·E2 deben mantenerse por debajo de 400 caracteres [9].

Conjunto de caracteres

Desde un punto de vista estadístico, su mejor apuesta es frase su mensaje en Inglés. Por ejemplo, Stable Diffusion se entrenó en un subconjunto de la base de datos LAION-5B, que contiene 2300 millones de pares de imagen y texto en inglés y 2200 millones de pares de imagen y texto de más de 100 idiomas diferentes. [1, 4].Mensaje: “un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio). Eso significa que no está limitado al alfabeto de Europa occidental. Puede usar conjuntos de caracteres no latinos como el árabe o el chino, e incluso puede usar emojis.Aviso: “サングラスをかけた猫” (en japonés, “un gato con gafas de sol”) (Imagen realizada por el autor con DreamStudio)Mensaje: “🐱😎” (Imagen realizada por el autor con DreamStudio) Sin embargo, como puede ver, tanto la imagen generada con un mensaje en japonés como la imagen generada con un solo mensaje de emoji no puede producir un par de gafas de sol en el gato.Si bien es posible que no funcione tan bien como las indicaciones en inglés, puede usarlo para mejorar (consulte la sección Repetición). También, por ejemplo, Midjourney es no entre mayúsculas y minúsculas [6]. Eso significa que si escribe en mayúscula su texto no afecta la imagen generada; por lo tanto, puede escribir su solicitud en minúsculas.

Plantilla y tokenización

Un aviso generalmente sigue la siguiente plantilla (ajustada de [8]). Llegaremos a cada parte en las siguientes secciones.[Art form] de [subject] por [artist(s)], [detail 1]…, [detail n]La tokenización en el contexto de la ingeniería rápida describe la separación de un texto en unidades más pequeñas (tokens). Para ingeniería rápida, puede usar comas (,), barras verticales (|) o dos puntos dobles (::) como separadores duros [6, 10]. Sin embargo, el impacto directo de la tokenización no siempre es claro [6].La parte más importante de un aviso es el tema. [2, 8] ¿Qué quieres ver? Si bien esto puede ser lo más sencillo, también es lo más difícil en cuanto a la cantidad de detalles que desea proporcionar.Mensaje: “un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio)

Plurales

Las palabras vagas en plural como “gatos” dejan mucho espacio para la interpretación [6]. ¿Quiso decir dos gatos o 13 gatos? Por lo tanto, cuando desee varios sujetos, use sustantivos en plural con números específicos. [6].Mensaje: “gatos con gafas de sol” (Imagen realizada por el autor con DreamStudio) Sin embargo, se informó que, si bien, por ejemplo, DALL·E2 no tiene problemas para crear varios sujetos en una escena, se queda corto al separar ciertas características de cada uno. otro [11]Si bien la imagen de arriba generada con DreamStudio de Stable Diffusion produjo dos gatos separados, muestra sus luchas en la siguiente imagen. Puedes ver que el gato de la izquierda no lleva gafas de sol. En cambio, el par de gafas de sol parece estar flotando detrás del gato.Aviso: “tres gatos con gafas de sol” (Imagen realizada por el autor con DreamStudio). Además, se informó que DALL·E2 puede manejar bien avisos con hasta tres sujetos, pero los avisos con más de tres sujetos son difíciles de crear incluso si dices “12”, “doce”, “una docena”, o lo dices varias veces de varias maneras [6].De nuevo, Stable Diffusion muestra una diferencia con DALL·E2 con respecto a este problema. Sin embargo, también muestra que generar exactamente 12 gatos es difícil.Mensaje: “doce gatos con gafas de sol” (Imagen realizada por el autor con DreamStudio)

Pesos

Si desea darle más peso a un tema específico, hay varias formas de hacerlo.Ordenar: Los tokens cerca del frente de un indicador tienen más peso que los tokens en la parte posterior de un indicador. [10]Repetición: Repetir el tema al expresarlo de manera diferente puede afectar su ponderación. [8, 12]. También he visto avisos que repiten el tema en diferentes idiomas o usan emojis.Parámetros: Por ejemplo, en Midjourney, puede agregar el sufijo ::peso a cualquier parte de un aviso para darle un peso (por ejemplo: ::0.5) [6].

Exclusiones

Los mensajes que contienen palabras negativas como “no”, “pero”, “excepto” y “sin” son difíciles de entender para los modelos generativos de texto a imagen. [6]. Mientras que Midjourney tiene un comando especial para casos como este (–no) [7]puede omitir este problema evitar frases negativas y en su lugar formular positivamente su mensaje [6].La forma de arte es una parte crucial del mensaje. Las formas de arte comúnmente utilizadas en las indicaciones son [2]:fotografía: fotografía de estudio, polaroid, teléfono con cámara, etc.Mensaje: “foto polaroid de un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio)pinturas: óleos, retratos, acuarelas, etc.Mensaje: “pintura de acuarela de un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio)ilustraciones: dibujo a lápiz, boceto al carbón, aguafuerte, caricatura, arte conceptual, carteles, etc.Mensaje: “boceto al carboncillo de un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio)arte digital: Representaciones 3D, ilustraciones vectoriales, arte polivinílico bajo, arte de píxeles, escaneo, etc.Mensaje: “ilustración vectorial de un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio)fotogramas de la película: películas, circuito cerrado de televisión, etc.Mensaje: “Fotografía de CCTV de un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio) Como puede ver, incluso puede definir el medio específico para cada forma de arte. Por ejemplo, para la fotografía, puede volverse muy específico definiendo detalles como [9]:tipo de película (blanco y negro, polaroid, 35 mm, etc.), encuadre (primer plano, plano general, etc.), configuración de la cámara (velocidad de obturación rápida, macro, ojo de pez, desenfoque de movimiento, etc.), iluminación ( hora dorada, iluminación de estudio, iluminación natural, etc.) Hay varias otras formas de arte como pegatinas y tatuajes. [11]. Para más inspiración, puedes echar un vistazo a [11].Si la forma de arte no se especifica en el aviso, los modelos generativos generalmente elegirán uno que hayan visto más durante el entrenamiento. Para muchos temas, esa forma de arte será la fotografía. [6].Otra parte de la plantilla que puede tener un gran impacto en el resultado de la imagen generada es el estilo o el artista. [6, 8]. Simplemente use “por [artists]” [11] o “al estilo de [style or artist]”.Mensaje: “pintura al óleo de un gato con gafas de sol de van gogh” (Imagen realizada por el autor con DreamStudio) Dos consejos para generar imágenes interesantes son: Mezclar dos o más artistas [2]Mensaje: “pintura al óleo de un gato con gafas de sol de van gogh y de andy warhol” (Imagen realizada por el autor con DreamStudio) Uso de artistas ficticios [12]Sugerencia: “pintura al óleo de un gato con gafas de sol por max mustermann” (Imagen realizada por el autor con DreamStudio) En la nota de combinar artistas para generar imágenes interesantes, también puede combinar dos conceptos bien definidos [6]. Puedes probar las siguientes plantillas [11]:- “[subject] hecho de”
– “[subject] eso parece como”
– “[subject] como”Aviso: “un gato como una estrella de rock” (Imagen hecha por el autor con DreamStudio) Agregar detalles como adjetivos y refuerzos de calidad puede afectar significativamente la estética general de su imagen [8]Los adjetivos de uso común suelen describir: el encuadre (primer plano, paisaje, retrato, plano general, etc.) la combinación de colores (oscuro, pastel, etc.) la iluminación (iluminación cinematográfica, luz natural, etc.) otros: épico, hermoso, impresionante Pero también hay algunos “términos mágicos” que la comunidad ya ha encontrado que parecen generar imágenes más atractivas [2, 8]:Aviso: “un gato con gafas de sol, muy detallado” (Imagen realizada por el autor con DreamStudio) “tendencia en artstation”Aviso: “un gato con gafas de sol, tendencia en artstation” (Imagen realizada por el autor con DreamStudio) “renderizado en Unreal Engine”Aviso: “un gato con gafas de sol, renderizado en unreal engine” (Imagen realizada por el autor con DreamStudio) En este artículo, aprendió a diseñar un aviso para producir imágenes con modelos generativos de texto a imagen en menos intentos. Discutimos cómo podría mejorar una imagen de aspecto aceptable a partir de un mensaje que solo contenía el tema como “un gato con gafas de sol”.Mensaje: “un gato con gafas de sol” (Imagen realizada por el autor con DreamStudio). Los trucos esenciales fueron: definir una forma de arte de grano fino (p. ej., una fotografía en blanco y negro) agregar un estilo o artista (p. ej., de Annie Lebovitz ) agregando adjetivos de refuerzo (por ejemplo, muy detallado). Siguiendo estos simples trucos, la imagen resultante ya se ve mucho más interesante, como puede ver a continuación.Mensaje: “una fotografía en blanco y negro de un gato con gafas de sol por annie lebovitz, muy detallada” (Imagen realizada por el autor con DreamStudio)[1] R. Beaumont, “LAION-5B: UNA NUEVA ERA DE CONJUNTOS DE DATOS MULTIMODALES ABIERTOS A GRAN ESCALA”, laion.ai. https://laion.ai/blog/laion-5b/ (consultado el 10 de septiembre de 2022)[2] DreamStudio, “Guía rápida”. dreamstudio.ai. https://beta.dreamstudio.ai/prompt-guide (consultado el 10 de septiembre de 2022)[3] DreamStudio, “Preguntas generales”. dreamstudio.ai. https://beta.dreamstudio.ai/faq (consultado el 5 de septiembre de 2022)[4] Huggingface, “Difusión estable con 🧨 difusores”, google.com. https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=gd-vX3cavOCt[5] J. Jang, “Cómo funcionan los créditos DALL·E”. openai.com. https://help.openai.com/en/articles/6399305-how-dall-e-credits-work (consultado el 4 de septiembre de 2022)[9] Stability AI, “Términos de servicio beta de Stable Diffusion Dream Studio”. estabilidad.ai. https://stability.ai/stablediffusion-terms-of-service (consultado el 5 de septiembre de 2022)[6] A mitad de camino, “docs”, github.com. https://github.com/midjourney/docs/ (consultado el 10 de septiembre de 2022)[7] Midjourney, “Documentación Midjourney”. gitbook.io. https://midjourney.gitbook.io/docs/ (consultado el 4 de septiembre de 2022)[8] J. Oppenlaender, Una taxonomía de modificadores rápidos para la generación de texto a imagen (2022), versión preliminar de arXiv arXiv:2204.13988.[9] G. Parsons, The DALL·E 2 Prompt Book (2022), https://dallery.gallery/the-dalle-2-prompt-book/ (consultado el 10 de septiembre de 2022)[10] “pxan”, “Cómo obtener imágenes que no apestan: una guía para principiantes/intermedios para obtener imágenes geniales de difusión estable”, reddit.com. https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/ (consultado el 10 de septiembre de 2022)[11] “rendo1#6021” y “luc#0002”, “DALL·E 2 Prompt Engineering Guide”, google.com. https://docs.google.com/document/d/11WlzjBT0xRpQhP9tFMtxzd0q6ANIdHPUBkMV-YB043U/edit#heading=h.8g22xmkqjtv7 (consultado el 10 de septiembre de 2022)[12] M. Taylor, “Ingeniería rápida: de las palabras al arte”, saxifrage.xyz. https://www.saxifrage.xyz/post/prompt-engineering (consultado el 10 de septiembre de 2022)

aliintizar71

Recent Posts

Máquina de mano Lean, Green, Raspberry Pi

Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…

2 years ago

Cómo pronosticar series de tiempo usando autorregresión

Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…

2 years ago

Aquí están todas las formas en que puede cargar su AirPods Pro

Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…

2 years ago

Las principales noticias tecnológicas del lunes: la prohibición de clientes de terceros de Twitter parece no ser un accidente

Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…

2 years ago

AirPods Max 2: aquí están las características más solicitadas

Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…

2 years ago

El remake de Dead Space continúa luciendo terriblemente genial en el nuevo tráiler de la historia

El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…

2 years ago