https://deyanira91.wordpress.com/wp-admin/site-editor.php?p=%2Fpage&postId=214
CV de Deyanira Sequeira

Manejo de imágenes

Módulo 3e

Modelos de IA

Tanscrpción del video de Centeia edu.
Existen distintos modelos de IAg que no simplemente son a partir de texto Vamos a indagar en cada uno de ellos: tenemos modelos de texto a texto, es decir, que le facilitamos una entrada, Y con ello tenemos una caja negra que nos devuelve también como respuesta a texto. Entre ellos, ¿qué encontramos?
Encontraríamos, por ejemplo, Chat GPT, el más conocido por parte de Open
y otros modelos de IAg como Cloud, Gemini por parte de Google y podríamos tener modelos como por ejemplo Grock por parte de Twitter.
Podríamos encontrar modelos de código abierto, que significa que cualquier persona pueda analizar y ver el código en sí, como en este caso sería por parte de Meta, como Llama.o el chino, Deep Seek.

También encontramos otros tipos de modelos como los siguientes.

• de texto a imagen en el que nosotros le facilitamos un texto como entrada y como consecuencia nos facilita una imagen.

Entre ellos podríamos encontrar incluso Dali, que es un modelo de IAg de generación de imágenes por parte del propio chat GPT, es decir, Open AI. encontraríamos a Mid Journey. que es uno de los modelos de generación de imágenes más potente a nivel del mercado. Nos permite generar imágenes ultrarealistas en las que podemos generar desde arte, e incluso piezas de paisaje, piezas de arte, todo aquello que nosotros queramos.

Después encontraríamos también Ideogram. Para mí, siempre lo digo, es la pequeña píldora de oro, ya que puedo generar imágenes que sean ultra realistas, y que sean también, a su vez, muy creativas, muy artísticas, muy dinámicas, y con un estilo de animación y con ello creo que Ideogram es la mejor herramienta, desde mi punto de vista, para la generación de imágenes con IAg, ya que soy capaz de hacerlo todo. Es un híbrido que nos permite tener tanto la calidad del realismo como a su vez esta parte más artística y creativa.

Así que nivel de resumen encontraríamos a Mid Journey y a su vez también Ideogram. Y con ello también modelos de código abierto, lo que comentaba anteriormente en el que tenemos stable diffusion, un modelo que no tiene restricciones y podemos crear cualquier tipo de imagen acerca de todo aquello que nosotros consideremos.

• texto a vídeo en el que encontramos como principales exponentes a Sora.

Sora es un modelo también facilitado por parte de Open AI que es muy reciente y que a su vez nos permite generar vídeos con IAg de una duración de más de 10 segundos.

Encontraríamos a Runway, que para mí es uno de los mejores modelos de generación de vídeos con IAg, sobre todo a nivel de realismos. Y lo mejor de todos, que podemos crear vídeos con IAg en el que le facilitemos o bien un texto, o bien una imagen de referencia y como consecuencia nos genere un vídeo, o bien darle un vídeo y que después nos edite este vídeo. Entonces, Runway también es una de las mejores herramientas o modelos de IAg para la generación de vídeos. Encontraríamos también, que es un gran exponente y nos permite hacer muchos efectos visuales todos con IAg.

Y por último, también podríamos llegar a tener Klim, un modelo chino, espectacular y que nos permite hacer unas cosas que son desorbitadas.

• generación de texto a audio, en el que nosotros le facilitamos texto
y como consecuencia generamos voz o no simplemente voz, sino que a su vez también podemos generar música.

Entre ellos, en la parte de generación de música, podríamos encontrar como principales exponentes a Suno y Udio, dos herramientas o modelos de IAg en el que nosotros le facilitamos una temática, una idea y nos puede llegar a generar una música. Y a su vez también en la parte de clonación y generación de voz vemos que el principal exponente es el Eleven Labs, un modelo de IAg que a partir de un texto, a partir de una voz de una otra persona, podemos recalcar y crear la nuestra o crear voces desde cero y esto por completo irrumpe en el paradigma actual, ya que podemos incluso utilizar estas voces para la parte de llamadas con IAg., un modo negocio que sin duda está por explotar y que es muy muy atractivo a nivel financiero.

Y con ello realmente hemos visto los cuatro pilares y los cuatro tipos de modelo de IAg que encontramos a día de hoy en el mercado, que serían : de texto a texto, de texto a imagen, de texto a vídeo y de texto a voz.


Comentarios

Deja un comentario