El avance de los modelos de lenguaje continúa con paso firme, y DeepSeek, el equipo de I+D en IA respaldado por empresas tecnológicas chinas, ha anunciado el lanzamiento de DeepSeek-V3.1, una versión actualizada de su modelo de lenguaje multilingüe y open source. Este modelo promete un rendimiento sobresaliente en múltiples idiomas, incluida la comprensión avanzada del inglés, el chino y otros idiomas ampliamente hablados.
DeepSeek-V3.1 se presenta como un modelo de código abierto disponible en varias escalas, desde los 1.3B hasta los 236B de parámetros. Esto permite que desarrolladores y empresas puedan adaptar el modelo a distintos casos de uso y recursos computacionales. Además, su entrenamiento se ha realizado desde cero (preentrenamiento full scratch), utilizando datos vastos y cuidadosamente filtrados, lo que da como resultado un modelo más preciso y completo en tareas de comprensión, generación de textos y razonamiento.
Una de las características más destacables de DeepSeek-V3.1 es su capacidad de funcionar con eficacia tanto como asistente conversacional como modelo base para otras aplicaciones. Durante las pruebas, ha conseguido resultados competitivos en benchmarks internacionales como MMLU, HumanEval y GSM8K, posicionándose entre modelos comerciales líderes como GPT-4 y Claude 3 Opus, incluso superándolos en algunos casos, lo que lo convierte en una alternativa de código abierto sumamente competitiva.
DeepSeek también ha apostado por una arquitectura Mixture of Experts (MoE), en la versión de 236B de parámetros, que activa solo un subconjunto del modelo durante cada inferencia. Esta arquitectura ofrece lo mejor de dos mundos: una gran capacidad sin incrementar la carga computacional de forma desmesurada, lo que permite un uso más eficiente de los recursos.
Con este lanzamiento, DeepSeek refuerza su compromiso con la comunidad de IA abierta, ofreciendo un modelo potente, flexible y multilingüe que puede ser la base de múltiples desarrollos en el futuro cercano.
Fuente: DeepSeek Blog




