DeepSeek, una de las startups emergentes más prometedoras en el campo de la inteligencia artificial, ha anunciado oficialmente el próximo lanzamiento de su nuevo modelo de lenguaje de gran escala: DeepSeek R2. Este nuevo modelo, que verá la luz muy pronto, promete ser un avance significativo respecto a su predecesor, DeepSeek R1, que ya había demostrado un rendimiento competitivo con GPT-4 en múltiples benchmarks de razonamiento y codificación.
DeepSeek R2 está siendo diseñado desde cero con una arquitectura completamente nueva y una mejora sustentada en datos, infraestructura y eficiencia algorítmica. La empresa asegura que este modelo aumentará significativamente la capacidad de comprensión y generación de lenguaje natural, así como el rendimiento en tareas de programación. El equipo técnico afirma haber aprendido valiosas lecciones del entrenamiento del modelo R1, lo que les ha permitido replantear múltiples componentes clave en R2, desde la calidad y diversidad de los datos hasta la escalabilidad del preentrenamiento y el fine-tuning.
Uno de los valores fundamentales en el desarrollo de R2 es la colaboración abierta. DeepSeek planea trabajar con instituciones académicas, comunidades open-source y otras organizaciones de la industria para garantizar que el nuevo modelo esté alineado éticamente, sea seguro y útil para una audiencia global. Además, la compañía ha reafirmado su compromiso con el acceso abierto, siguiendo con su política de liberar modelos y conjuntos de datos que puedan beneficiar a la comunidad investigadora.
Aunque no se han revelado detalles técnicos como el tamaño exacto del modelo o los parámetros específicos, desde la empresa aseguran que DeepSeek R2 representará un salto cualitativo no solo en capacidad, sino también en optimización, seguridad y responsabilidad en el uso de la IA. Este nuevo modelo, previsto para su lanzamiento en algún momento de 2025, podría marcar una nueva etapa en la carrera hacia la inteligencia artificial general.
Fuente: DeepSeek.ai