15 jul 2023 , 09:42

Meta presenta CM3leon, la nueva inteligencia artificial para crear imágenes a partir de texto y viceversa

Con esta nueva herramienta, Meta planea dar un golpe sobre la mesa de la inteligencia artificial.

Meta ha presentado este viernes CM3leon, el primer modelo multimodal de IA generativa capaz de crear imágenes a partir de texto y viceversa, con una receta adaptada de lenguaje multimodal que, además, se entrena con cinco veces menos recursos.

La compañía liderada por Mark Zuckerberg continúa investigando en modelos generativos de IA, introduciendo avances en el procesamiento del lenguaje natural, en este caso, para permitir que las páginas entiendan y expresen lenguaje, así como sistemas que pueden generar imágenes basadas en entradas de texto.

Lea también: La compañía que reemplazó con IA al 90% de sus empleados de servicio al cliente

En este marco, Meta ha presentado su nuevo modelo de IA CM3leon -pronunciado camaleón- capaz de ofrecer el más alto rendimiento en la conversión de texto a imagen y viceversa que, además, se entrena con cinco veces menos recursos que los modelos anteriores y genera secuencias de texto e imágenes con base en secuencias arbitrarias de otro contenido de imagen y texto.

Tal y como ha explicado la compañía en un comunicado en su blog, se trata de una solución innovadora porque es primer modelo multimodal que está entrenado con una adaptación de modelos de lenguaje de solo texto.

¿Cómo funciona CM3leon?

Los modelos generativos de solo texto se ajustan a instrucciones multitarea, comprendiendo distintas gamas de acciones a la hora de seguir indicaciones. Sin embargo, los modelos de generación de imágenes están especializados, por norma general, solo en tareas concretas.

Al aplicar las multitareas a gran escala de los modelos de solo texto para la generación de imágenes y texto, se ha mejorado el rendimiento en otras tareas como, por ejemplo, la generación de texto a partir de imágenes para escribir una leyenda de estas.

Además, aunque es un modelo entrenado con una cantidad de recursos cinco veces menor que los modelos anteriores, CM3leon es capaz de ofrecer un rendimiento de última generación para crear imágenes a partir de texto y viceversa.

De hecho, Meta ha subrayado que CM3leon tiene la "versatilidad y efectividad de los modelos autorregresivos". Como consecuencia, es un modelo que mantiene bajos costos de entrenamiento y es eficiente.

Con todo ello, la compañía ha matizado que se trata de un modelo causal enmascarado mixto-modal (CM3), ya que puede generar secuencias de texto e imágenes condicionadas a secuencias arbitrarias de otro contenido de imagen y texto. Tal y como ha sentenciado la compañía, "esto amplía enormemente la funcionalidad de los modelos anteriores que eran solo de texto a imagen o solo de imagen a texto".

Siguiendo esta línea, CM3Leon también muestra una capacidad impresionante para generar objetos compositivos complejos, es decir, imágenes con distintos componentes que no tienen que ver entre sí o que son complicados de encajar juntos.

Igualmente, la empresa matriz de Instagram ha destacado que CM3leon se desempeña bien en una amplia variedad de tareas de visión y lenguaje, incluida la respuesta visual a preguntas y subtítulos de formato largo.

Las capacidades de CM3leon

Gracias a todas sus características, CM3leon puede proceder a la generación y edición de imágenes guiadas por texto. En concreto, la edición modificada por texto es un desafío, ya que es necesario que el modelo comprenda tanto las instrucciones de texto como la propia imagen generada para editarla posteriormente.

Al hilo, este nuevo modelo de Meta también puede editar imágenes siguiendo instrucciones de estructura. Esto es una opción que permite crear ediciones visualmente coherentes y contextualmente apropiadas para una imagen que se adhieren a las pautas de diseño ya descritas previamente.

Otra de las capacidades que desempeña CM3leon es la de generar una imagen a partir de un texto con descripciones. Pero, en concreto, a partir de un texto que describa una imagen potencialmente muy compositiva, lo que pone a prueba al modelo para seguir de forma coherente las indicaciones del texto.

CM3leon también es capaz de llevar a cabo tareas de texto. En este sentido, puede seguir distintas indicaciones para, a partir de una imagen, generar subtítulos cortos o largos, incluso, puede responder preguntas sobre una imagen.

Dentro de sus habilidades para generar imágenes, el usuario puede redactar una descripción que incluya la localización exacta de dónde se han de situar los objetos que se hayan incluido en la descripción, dentro de un espacio delimitado.

Lea también: El cada vez más frecuente uso de voces familiares clonadas con inteligencia artificial para realizar estafas telefónicas

Igualmente, CM3leon también es capaz de ofrecer resultados de súper resolución, esta opción agrega una etapa entrenada por separado para introducir imágenes de mayor resolución a los resultados del modelo original.

Noticias
Recomendadas