“Fotografía / Pintura al óleo expresiva / Pixel art de un astronauta tumbado en una tumbona con un cóctel en el desierto.” — Imágenes creadas con DALL-E2 utilizando el indicador respectivo. Recientemente, Internet se ha inundado con impresionantes imágenes generadas por IA. Es decir, los usuarios proporcionan un mensaje de texto y un sistema de IA genera una imagen basada en dicho mensaje. Lo interesante es que no solo genera imágenes que son, hablando llanamente, notables, sino que uno puede combinar ideas y estilos interesantes. Esto puede significar que pones a un astronauta en el desierto y lo tienes como una imagen fotorrealista, una pintura al óleo expresiva o como un arte de píxeles. Aquí, le proporcionaremos tres formas en que puede explorar dichas tecnologías por sí mismo con diferentes niveles de experiencia técnica: la versión en línea de DALL-E 2, un Google Colab y una versión local de Stable Diffusion.
Primero obtengamos brevemente información básica sobre las diferentes tecnologías. DALL-E 2 es un modelo de IA con 3500 millones de parámetros y se basa en el modelo de transformador preentrenado generativo (GPT) de OpenAI. Una fase beta para usuarios seleccionados comenzó en julio de 2022 y fue presentada al público en general el 28 de septiembre por OpenAI, con el código fuente aún no hecho público. En contraste con eso, el código de difusión estable y los pesos del modelo están disponibles para el público. Es un modelo de difusión latente y se lanzó como una colaboración del grupo CompVIS de la Universidad Ludwig Maximilian de Munich (LMU), StabilityAI, una empresa emergente de artes visuales, y Runway el 22 de agosto de 2022. El modelo de difusión estable se entrenó con datos de la Red Abierta de Inteligencia Artificial a Gran Escala (LAION), una organización alemana sin fines de lucro que había extraído imágenes de la web. El modelo en sí tiene 890 millones de parámetros y se puede ejecutar en tarjetas gráficas de consumo. Además de DALL-E, también está Midjourney, al que también solo se puede acceder a través de servicios en la nube y comenzó con una versión beta abierta el 12 de julio de 2022. Desde Desde una perspectiva comercial, el arte generado por IA parece ser extremadamente prometedor. StabilityAI acaba de recaudar $ 101 millones y Midjourney afirma que ya es rentable.
Una captura de pantalla de DALL-E después de iniciar sesión en octubre de 2022. El uso de DALL-E 2 es directo y simple: vaya a la página de OpenAI de DALL-E 2 y regístrese. Necesitarán un número de teléfono móvil para registrar su cuenta. Eso es todo. Terminas en un aviso de texto similar a Google; escriba su idea y se generarán cuatro imágenes de ejemplo en segundos. Puede hacer clic en imágenes individuales y obtener variaciones de ellas. Cada solicitud le cuesta un crédito; obtendrá 50 créditos su primer mes, con 15 créditos que se repondrán cada mes subsiguiente. Además, puede comprar 115 créditos por $15.
Si prefiere la difusión estable alternativa de código abierto, primero debemos configurar las cosas.Colaboración de Google. Si no tiene el hardware instalado, le recomiendo usar Google Colab, que tiene acceso a las GPU adecuadas para la tarea. Como punto de partida, comenzamos con este cuaderno. Requiere un token de cara de abrazo para acceder a los pesos del modelo. Puede obtener el token creando una cuenta de cara de abrazo, yendo al modelo de difusión estable y aceptando los términos para compartir el modelo. Para generar las imágenes, ejecute todas las celdas hasta que necesite ingresar el token, luego continúe hasta llegar a la celda donde puede ingresar el indicador de generación de imágenes. Esto toma un par de minutos y la generación de imágenes toma varios segundos para una imagen.Google Colab y Stable Diffusion: “Pintura al óleo expresiva de un astronauta acostado en una tumbona con un cóctel en el desierto”. Si desea guardar las imágenes en su Google Drive, por ejemplo, en la carpeta de imágenes exportadas, puede hacerlo. así: Monte la unidad: desde la unidad de importación de google.colab
drive.mount(‘/content/gdrive’)Guardar imágenes (Tenga en cuenta que el directorio principal es My Drive para Google Drive)image.save(f”/content/gdrive/My Drive/exported-images/image.png”)A La limitación del enfoque de Google Colab es que debe volver a configurar el entorno si pierde la conexión con el Kernel.Instalación local. Si tiene una máquina GPU en funcionamiento que se configuró para tareas de aprendizaje profundo; puede instalar y ejecutar Stable Diffusion localmente. Más precisamente, debe tener un entorno Python (como Anaconda o Miniconda), Git y la GPU correctamente instalada, es decir, los controladores CUDA). En términos prácticos, para una máquina Windows con una tarjeta NVIDIA, si ejecuta nvidia-smi en la línea de comando, debería ver la versión CUDA. Para la instalación, puedes seguir las instrucciones de GitHub, pero en esencia, clonas el repositorio a través de Git y creas e instalas el medio ambiente.conda env create -f medio ambiente.yaml
conda active ldmNext, deberá descargar los pesos de la página de la cara de abrazos de difusión estable. Usé el último sd-v1–4.ckpt. En Linux, puede vincular los archivos como se describe en el repositorio de GitHub; en un sistema Windows, descargaría el archivo y le cambiaría el nombre a model.ckpt y lo copiaría en la carpeta del modelo de difusión estable, así: models/ldm/stable-diffusion-v1/model.ckpt Entonces puede (en un entorno) cree las imágenes a través de la línea de comandos (tenga en cuenta que debe estar en la carpeta del repositorio de GitHub): python scripts/txt2img.py –prompt “Pintura al óleo expresiva de un astronauta acostado en una tumbona con un cóctel en el desierto” –plms“Pintura al óleo expresiva de un astronauta acostado en una tumbona con un cóctel en el desierto”, generado con una instalación local de Stable Diffusion. Tenga en cuenta que probé cinco semillas diferentes antes de encontrar un astronauta en un traje dentro de las imágenes. Las imágenes generadas estarán en outputs/txt2img-samples. Aquí hay una guía de instalación más detallada que también muestra cómo usar la interfaz web. probé con un Titan V con 12 GB de memoria y tuve problemas de memoria con bastante frecuencia. Aquí, ayudó reducir el tamaño pasando los argumentos -H o -W o reducir el número de muestras con -n_samples.
Hoy en día, es sorprendentemente fácil generar imágenes de IA con indicaciones de texto. Con herramientas como DALL-E 2, ni siquiera se requiere hardware costoso o habilidades de codificación. Si bien la calidad de la imagen es impresionante, todavía puede haber artefactos que pueden revelar que una imagen es artificial, por ejemplo, al mirar las sombras de la última imagen de ejemplo de la instalación local de Stable Diffusion. En última instancia, creo que esto transformará por completo el sector creativo cuando nunca fue tan fácil visualizar pensamientos.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…