OpenAI lanza GPT-4, una IA multimodal con soporte de imágenes

Últimamente sólo se habla de ChatGPT. Con el modelo de lenguaje GPT 3 y GPT 3.5 (para suscriptores Plus), el chatbot de IA ha crecido a pasos agigantados en lo que puede hacer. Sin embargo, mucha gente ha estado esperando con impaciencia un modelo actualizado que vaya más allá. Pues bien, OpenAI lo ha hecho realidad con GPT-4, su último LLM multimodal que viene repleto de mejoras y tecnología sin precedentes en IA. Descubre todos los detalles a continuación.

GPT-4 es multimodal y supera a 3.5

El recién anunciado modelo GPT-4 de OpenAI es algo grande en inteligencia artificial. Lo más importante es que GPT-4 es un gran modelo multimodal. Esto significa que podrá aceptar entradas de imagen y texto, lo que le proporcionará una comprensión más profunda. OpenAI menciona que, aunque el nuevo modelo es menos capaz que los humanos en muchos escenarios del mundo real, aún puede exhibir un rendimiento de nivel humano en varios niveles.

También se considera que GPT-4 es un modelo más fiable, creativo y eficiente que su predecesor GPT-3.5. Por ejemplo: El nuevo modelo pudo aprobar un examen de abogacía simulado con una puntuación en torno al 10% de los mejores examinados (~90 percentil), mientras que GPT 3.5 quedó en el 10% inferior. GPT-4 también es capaz de manejar instrucciones más matizadas que el modelo 3.5. OpenAI ha comparado ambos modelos en una serie de pruebas y exámenes y GPT-4 ha salido vencedor. Echa un vistazo a todo lo que puede hacer ChatGPT aquí.

GPT-4 y entradas visuales

Como se mencionó anteriormente, el nuevo modelo puede aceptar promociones tanto de texto como de imágenes. En comparación con una entrada de texto restringida, GPT-4 se desenvolverá mucho mejor en la comprensión de entradas que contengan tanto texto como imágenes. Las entradas visuales se mantienen consistentes en varios documentos, incluyendo texto y fotos, diagramas e incluso capturas de pantalla.

OpenAI lo demostró alimentando a GPT-4 con una imagen y un texto en el que se le pedía que describiera qué tenía de gracioso la imagen. Como se ve arriba, el modelo fue capaz de leer con éxito una imagen aleatoria de Reddit y responder a la pregunta del usuario. A continuación, fue capaz de identificar el elemento gracioso. Sin embargo, las imágenes de entrada de GPT-4 aún no están a disposición del público y son un avance de investigación.

Alucinaciones y datos limitados

Aunque la GPT-4 ha dado un gran salto con respecto a su versión anterior, sigue habiendo algunos problemas. Para empezar, OpenAI menciona que aún no es totalmente fiable y que es propensa a las alucinaciones. Esto significa que la IA cometerá errores de razonamiento y que sus resultados deben tomarse con mucho cuidado y con intervención humana. También puede equivocarse con seguridad en sus predicciones, lo que puede dar lugar a errores. Sin embargo, GPT-4 reduce las alucinaciones en comparación con los modelos anteriores. En concreto, el nuevo modelo obtiene una puntuación un 40% superior al GPT-3.5 en las evaluaciones de la empresa.

Otro inconveniente que muchos esperaban que se solucionara con GPT-4 es el limitado conjunto de datos. Por desgracia, GPT-4 sigue sin conocer los sucesos ocurridos después de septiembre de 2021, lo que resulta decepcionante. Tampoco aprende de su experiencia, lo que se traduce en los errores de razonamiento antes mencionados. Además, GPT-4 puede fallar en problemas difíciles, al igual que los humanos, incluidas las vulnerabilidades de seguridad. Pero no hay de qué preocuparse, ya que la IA de Microsoft Bing utiliza el modelo GPT-4. Sí, puedes probar el nuevo modelo de IA, con el respaldo de datos de Internet en tiempo real en Bing. Echa un vistazo a este artículo para saber cómo acceder al chat de Bing AI en cualquier navegador, sin estar limitado a Edge.

Accede a GPT-4 con ChatGPT Plus

GPT-4 está disponible para los suscriptores de ChatGPT Plus con un límite de uso. OpenAI menciona que ajustará el límite de uso exacto en función de la demanda y el rendimiento del sistema. Además, la empresa podría incluso introducir un "nuevo nivel de suscripción" para un mayor volumen de uso de GPT-4. Los usuarios gratuitos, por su parte, tendrán que esperar, ya que la empresa no ha mencionado ningún plan específico y sólo "espera" poder ofrecer una cierta cantidad de consultas gratuitas de GPT-4 a quienes no dispongan de una suscripción.

Por lo que parece, GPT-4 se perfila como un modelo lingüístico muy atractivo, incluso con algunas grietas en su armadura. Para quienes deseen información más detallada, ya tenemos algo en preparación. Estén atentos.

Artículo traducido y adaptado de Beebom

Buscar este blog

Alvaro Carrillo Alvarez Calderon