El paradigma que ha provocado que la innovación en IA dependa exclusivamente de grandes presupuestos parece estar cerca de ser derribado, debido a la llegada del chatbot DeepSeek R1, cuyo desarrollo de bajo costo y capacidades llamaron la atención de figuras como Sam Altman, CEO de OpenAI, que lo calificó como "un modelo impresionante".
El líder de la empresa creadora del popular ChatGPT, reconoció la irrupción de una nueva competencia y al menos públicamente lo consideró como algo positivo para lograr nuevas innovaciones.
"Obviamente entregaremos modelos mucho mejores, pero es realmente vigorizante tener un nuevo competidor", comentó. Además, enfatizó que OpenAI seguirá comprometida con su hoja de ruta hacia la inteligencia artificial general (AGI), apuntando a un futuro donde la IA tenga la capacidad de realizar cualquier tarea intelectual que un ser humano pueda hacer.
"Creemos que ahora más que nunca es importante contar con más recursos informáticos para tener éxito en nuestra misión", destacó Altman, que también advirtió que "el mundo va a querer usar MUCHA IA y realmente se sorprenderá con los modelos de próxima generación que están por llegar. Esperamos poder ofrecerles toda la inteligencia artificial y más allá".
Optimización, el enfoque de DeepSeek R1
El éxito de DeepSeek R1 no es solo técnico, sino también estratégico. La empresa, fundada por Liang Wenfeng, un exlíder de un fondo de cobertura cuantitativo en China, ha adoptado un enfoque que prioriza la optimización de recursos sobre la adquisición de hardware de vanguardia.
El modelo utiliza algoritmos personalizados y hardware limitado, como los chips H800 de Nvidia, diseñados específicamente para el mercado chino tras las restricciones de exportación de procesadores de alta potencia impuestas por Estados Unidos, fundamentales para el desarrollo de modelos de IA complejos.
Mientas que su modelo Janus-Pro, aunque su resolución de análisis de imágenes está limitada a 384x384 píxeles, supera a modelos líderes como Stable Diffusion y DALL-E 3 en varios benchmarks, destacándose especialmente por su eficiencia y apertura.
Según le dijo un portavoz de Nvidia a Bloomberg, este avance "demuestra cómo una compañía puede innovar utilizando métodos de escalado en tiempo de prueba y modelos ampliamente disponibles que cumplen con las normativas de exportación".
Innovación en tiempos de restricciones
La historia de DeepSeek es una lección de cómo las restricciones pueden ser el motor de la innovación. En respuesta a los controles de exportación de Estados Unidos de chips avanzados, la empresa adoptó enfoques innovadores como Multi-head Latent Attention (MLA) y Mixture-of-Experts.
Estas técnicas no son nuevas, pero DeepSeek logró combinarlas de manera única para reducir significativamente los requisitos de computación sin sacrificar el rendimiento.
De hecho, entrenar sus modelos costó apenas 6 millones de dólares y requirió solo una décima parte del poder computacional necesario para desarrollar modelos comparables, como Llama 3.1 de Meta. Este nivel de eficiencia es una señal de que la actual dependencia de hardware costoso podría no ser sostenible a largo plazo.
Por lo que el rendimiento alcanzado por el chatbot chino pese a las restricciones estadounidenses y el presupuesto limitado, sorprendió a buena parte del sector de la tecnología y su llegada ha generado todo un terremoto en los mercados tecnológicos occidentales.
Entrar y enviar un comentario