
Bienvenidos a esta guía sobre DeepSeek ¿Cómo funciona? Comparte este articulo y síguenos para recibir más guías y cursos.
Para saber más comente a continuación, respondemos todos y cada uno de los comentarios.
¿Te gustaría enterarte de cuando lanzamos descuentos y nuevos cursos?

Explicación de DeepSeek-R1: pioneros en la próxima era de la inteligencia artificial basada en el razonamiento
En los últimos años, el campo de la inteligencia artificial (IA) ha experimentado rápidos avances, y los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han allanado el camino hacia la inteligencia artificial general (AGI, por sus siglas en inglés). Un modelo notable, o1 de OpenAI , introdujo técnicas innovadoras de escalamiento en tiempo de inferencia que mejoran significativamente las capacidades de razonamiento. Sin embargo, sigue siendo de código cerrado.
Hoy, nos adentramos en el innovador artículo de investigación de DeepSeek que presentó DeepSeek-R1. El artículo, titulado “DeepSeek-R1: Incentivando la capacidad de razonamiento en modelos de lenguaje grandes a través del aprendizaje por refuerzo”, presenta un modelo de razonamiento de código abierto de última generación y una receta detallada para entrenar dichos modelos utilizando técnicas de aprendizaje por refuerzo a gran escala.
Introducción
La capacidad de los modelos de lenguaje grande (LLM) para razonar de manera eficaz es una medida definitoria de su inteligencia. Desde la resolución de problemas complejos hasta la generación de explicaciones perspicaces, el razonamiento robusto potencia las aplicaciones de inteligencia artificial más avanzadas. Sin embargo, lograr esta capacidad a menudo exige grandes cantidades de datos de ajuste fino supervisado (SFT) y recursos computacionales.
Entra en escena DeepSeek , un marco revolucionario que reinventa el razonamiento en los LLM a través del aprendizaje por refuerzo puro (RL) . Al permitir que los modelos desarrollen de manera autónoma comportamientos de razonamiento, los modelos de primera generación de DeepSeek ( DeepSeek-R1-Zero y DeepSeek-R1 ) establecen nuevos puntos de referencia, rivalizando con sistemas propietarios como los modelos de vanguardia de OpenAI.
DeepSeek va más allá al democratizar el acceso a la IA de alto rendimiento. A través de técnicas de destilación innovadoras , transfiere capacidades de razonamiento avanzadas a modelos más pequeños y eficientes, lo que hace que la IA poderosa sea accesible y rentable. Este doble enfoque en la escalabilidad y la eficiencia posiciona a DeepSeek como una fuerza transformadora en el desarrollo de la IA.
Este blog explora el innovador entrenamiento basado en RL de DeepSeek, su flujo de trabajo de múltiples etapas y el proceso de destilación que potencia los modelos más pequeños. Únase a nosotros mientras descubrimos cómo DeepSeek está transformando el futuro del razonamiento en los LLM y democratizando la IA avanzada para un público más amplio.

Antes de profundizar en el artículo en sí, repasemos brevemente el proceso de formación de los titulados en LLM. Normalmente, los titulados en LLM pasan por tres etapas principales de formación:
- Entrenamiento previo: en esta etapa, los LLM se entrenan previamente con grandes cantidades de texto y código para aprender conocimientos de uso general. Este paso ayuda al modelo a volverse competente en la predicción del siguiente token en una secuencia. Por ejemplo, dada una entrada como “escribir una _ para la hora de dormir”, el modelo puede completarla con una palabra razonable, como “cuento”. Sin embargo, después del entrenamiento previo, el modelo aún tiene dificultades para seguir instrucciones humanas. La siguiente etapa aborda este problema.
- Ajuste fino supervisado: en esta etapa, el modelo se ajusta con precisión a partir de un conjunto de datos de instrucciones. Cada muestra del conjunto de datos consta de un par instrucción-respuesta, donde la respuesta se utiliza como etiqueta. Después de esta etapa, el modelo mejora en el seguimiento de instrucciones.
- Aprendizaje por refuerzo: los LLM se mejoran aún más mediante el uso de retroalimentación. Un método poderoso para esto es el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) , donde el modelo se entrena en función de la retroalimentación humana. Recopilar retroalimentación humana a gran escala y de alta calidad, especialmente para tareas complejas, es un desafío. Por lo tanto, otro enfoque común es el aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF, por sus siglas en inglés) , donde un modelo de IA proporciona la retroalimentación. Para que RLAIF funcione de manera eficaz, se necesita un modelo altamente capaz para proporcionar retroalimentación precisa.
La motivación detrás de DeepSeek
El razonamiento es una piedra angular de la inteligencia humana, ya que nos permite resolver problemas, tomar decisiones y comprender sistemas complejos. En el ámbito de la inteligencia artificial, replicar esta capacidad en modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) no es tarea fácil. Si bien los modelos de última generación actuales demuestran habilidades de razonamiento impresionantes, su desarrollo a menudo depende del ajuste fino supervisado (SFT, por sus siglas en inglés) con amplios conjuntos de datos etiquetados. Este enfoque, aunque efectivo, no está exento de limitaciones.
Desafíos en los modelos de razonamiento tradicionales
- Dependencia de datos supervisados : los modelos como los LLM avanzados de OpenAI dependen en gran medida de conjuntos de datos anotados de alta calidad. Recopilar y conservar dichos datos es costoso, requiere mucho tiempo y mano de obra, lo que hace que el proceso sea menos escalable.
- Problemas de escalabilidad : ajustar modelos a gran escala requiere inmensos recursos computacionales, lo que limita la accesibilidad para muchos investigadores y organizaciones pequeñas.
- Límites de generalización : a pesar de su sofisticación, muchos modelos tienen dificultades para generalizar sus capacidades de razonamiento en diversas tareas, especialmente en escenarios en los que no han sido entrenados explícitamente.
Necesidades emergentes en IA
Con la rápida adopción de la IA en todas las industrias, existe una creciente demanda de:
- Aprendizaje autónomo : modelos que pueden aprender a razonar sin guía o supervisión explícita.
- Soluciones eficientes : modelos más pequeños y que ahorran recursos, capaces de realizar tareas tradicionalmente reservadas a sus contrapartes más grandes.
- Investigación abierta : marcos transparentes y de código abierto que permiten a la comunidad de investigación aprovechar el progreso existente.
La visión de DeepSeek
DeepSeek fue concebido para abordar estos desafíos de frente. Su misión es doble:
- Ampliar los límites de lo que el aprendizaje de refuerzo (RL) puede lograr en el entrenamiento de LLM, evitando la necesidad de ajustes finos supervisados en las primeras etapas.
- Potenciar modelos más pequeños con capacidades de razonamiento avanzadas a través de técnicas de destilación innovadoras, democratizando el acceso a poderosas herramientas de IA.
Al centrarse en el razonamiento como una capacidad fundamental, DeepSeek cierra la brecha entre el aprendizaje autónomo y la implementación práctica. Sus dos modelos emblemáticos, DeepSeek-R1-Zero y DeepSeek-R1 , no solo redefinen la forma en que se desarrollan las habilidades de razonamiento, sino que también allanan el camino para soluciones de IA más inclusivas y rentables. A través de estos avances, DeepSeek ofrece una visión de un futuro en el que los LLM sean más inteligentes, accesibles y capaces que nunca.
Principales innovaciones de DeepSeek
Las innovaciones detrás de DeepSeek radican en su enfoque único para desarrollar capacidades de razonamiento en modelos de lenguaje grandes (LLM). A diferencia de los métodos convencionales, que dependen en gran medida del ajuste fino supervisado (SFT), DeepSeek emplea aprendizaje de refuerzo puro (RL) y un proceso de entrenamiento de múltiples etapas cuidadosamente diseñado. Estas innovaciones se encapsulan en sus dos modelos emblemáticos: DeepSeek-R1-Zero y DeepSeek-R1 .
1. DeepSeek-R1-Zero: aprendizaje de refuerzo puro
DeepSeek-R1-Zero es el primer paso para redefinir cómo se desarrollan las capacidades de razonamiento en los programas de maestría en derecho. Al obviar por completo el ajuste fino supervisado, este modelo demuestra que las conductas de razonamiento pueden surgir de forma natural a través del aprendizaje por refuerzo.
Características principales:
Optimización de políticas relativas a grupos (GRPO) :
- Un algoritmo RL rentable que elimina la necesidad de un modelo crítico separado, optimizando directamente las actualizaciones de políticas.
- GRPO estimula al modelo a explorar diversos caminos de razonamiento, lo que le permite desarrollar de forma autónoma comportamientos como la reflexión y la autoverificación.
Comportamientos emergentes :
- Autoverificación : el modelo aprende a verificar sus propias respuestas reevaluando los pasos intermedios.
- Reflexión : Revisa su proceso de razonamiento para refinar conclusiones, imitando los enfoques humanos de resolución de problemas.
- Cadenas de pensamiento extendidas (CoT) : genera naturalmente pasos de razonamiento detallados, resolviendo tareas complejas con mayor precisión.
Resultados:
- Obtuvo una puntuación de Pass@1 del 71,0 % en el punto de referencia AIME 2024, que aumentó al 86,7 % con votación mayoritaria.
- Rendimiento comparable al modelo o1–0912 de OpenAI en pruebas de razonamiento sin utilizar ningún dato supervisado.
Desafíos:
- Problemas de legibilidad : los primeros resultados solían ser difíciles de interpretar, con problemas como mezcla de idiomas y formato inconsistente.
2. DeepSeek-R1: Entrenamiento en múltiples etapas con datos de inicio en frío
Para abordar los desafíos de DeepSeek-R1-Zero y mejorar la usabilidad, DeepSeek-R1 incorpora una pequeña cantidad de datos de inicio en frío y sigue un proceso de entrenamiento de varias etapas .
Proceso de formación en varias etapas:
Ajuste fino del arranque en frío :
- Se utiliza un conjunto de datos seleccionados con cadenas de pensamiento (CoT) largas y legibles para ajustar el modelo base.
- Esto mejora la claridad de salida y acelera la convergencia del modelo durante el aprendizaje automático.
RL orientado al razonamiento :
- Basándose en el modelo de inicio en frío, el RL a gran escala se centra en tareas que requieren un razonamiento intensivo, como codificación, matemáticas y lógica.
- Introduce recompensas por la consistencia del lenguaje para garantizar que los resultados sean legibles para humanos y libres de mezcla de idiomas.
Muestreo de rechazo y ajuste fino supervisado :
- Genera datos de alta calidad filtrando y refinando las respuestas del punto de control de RL.
- Se expande más allá de las tareas de razonamiento para incluir capacidades generales como escritura, control de calidad factual y juegos de roles.
Alineación a través de RL para todos los escenarios :
- Una etapa secundaria de RL alinea el modelo con las preferencias humanas de utilidad e inocuidad, garantizando un rendimiento sólido de propósito general.
Resultados:
- Se logró un rendimiento comparable a OpenAI-o1–1217 en puntos de referencia de razonamiento como AIME 2024 y MATH-500.
- Demostró capacidades excepcionales en tareas de contexto largo y escritura creativa, superando a otros modelos en puntos de referencia como AlpacaEval 2.0 y ArenaHard .
3. Destilación: potenciando pequeños modelos
DeepSeek no se detiene con modelos grandes; extiende sus capacidades a modelos más pequeños utilizando técnicas de destilación .
Proceso clave:
- Destila las capacidades de razonamiento de DeepSeek-R1 en modelos más pequeños (por ejemplo, series Qwen y Llama).
- Utiliza las 800 000 muestras de entrenamiento de alta calidad generadas por DeepSeek-R1 para ajustar modelos más pequeños.
Resultados:
Modelos más pequeños, gran impacto :
- Los modelos destilados como Qwen-7B y Qwen-32B lograron resultados competitivos en los puntos de referencia.
- DeepSeek-R1-Distill-Qwen-32B superó al o1-mini de OpenAI en tareas de razonamiento, con una puntuación de Pass@1 del 72,6 % en AIME 2024.
Ganancias de eficiencia :
- El proceso de destilación permite que modelos más pequeños alcancen capacidades de razonamiento que normalmente están reservadas para modelos más grandes que requieren más recursos.
Ventajas:
- Hace que los modelos de razonamiento de alto rendimiento sean accesibles a un público más amplio al reducir los costos computacionales.
- Permite a los investigadores y desarrolladores implementar soluciones de IA capaces en hardware limitado.
El doble enfoque de DeepSeek en el aprendizaje por refuerzo y la destilación lo posiciona como pionero en el campo de los LLM de razonamiento. Estas innovaciones no solo amplían los límites de lo que los LLM pueden lograr, sino que también hacen que estas capacidades sean más prácticas y accesibles para aplicaciones del mundo real.
Explicación de las matemáticas de optimización de políticas relativas a grupos (GRPO)
La optimización de políticas relativas a grupos (GRPO) es un algoritmo de aprendizaje por refuerzo (RL) eficiente que se utiliza para entrenar modelos como DeepSeek-R1-Zero . GRPO elimina la necesidad de un modelo crítico independiente, que suele consumir muchos recursos, y, en cambio, se basa en puntuaciones de grupo para estimar la ventaja para la optimización de políticas.
A continuación se muestra un desglose de los componentes matemáticos de GRPO:

Cálculo de ventajas
La ventaja Ai cuantifica qué tan buena es una respuesta muestreada oio_ioi en relación con las otras respuestas del grupo:

- ri : La recompensa asignada a la respuesta oio_ioi.
- Media del grupo : la recompensa promedio de todas las respuestas del grupo.
- Desviación estándar del grupo : normaliza AiA_iAi para tener en cuenta la variabilidad en las recompensas dentro del grupo.
Esta estimación de ventaja basada en grupos elimina la necesidad de un modelo crítico separado, lo que reduce la sobrecarga computacional.
Señal de recompensa final
La recompensa final ri combina múltiples componentes:
Recompensa por precisión :
- Evalúa la exactitud de una respuesta (por ejemplo, resolver correctamente un problema de matemáticas).
Formato Recompensa :
- Garantiza que la respuesta se adhiera a requisitos de formato específicos (por ejemplo, razonamiento incluido entre
<think>
etiquetas).
¿Por qué funciona GRPO?
- Eficiencia : Al utilizar puntuaciones de grupo en lugar de un modelo crítico, GRPO reduce significativamente los requisitos de memoria y computacionales.
- Estabilidad : El mecanismo de recorte evita actualizaciones demasiado grandes que podrían desestabilizar el proceso de aprendizaje.
- Flexibilidad : GRPO se adapta a diferentes estructuras de recompensa, lo que lo hace adecuado para tareas de razonamiento con diversos criterios de evaluación.
Comparación con PPO
GRPO es conceptualmente similar a la Optimización de Políticas Proximales (PPO) pero con diferencias clave:
Modelo sin crítica :
- PPO utiliza un crítico basado en valores para calcular la ventaja, mientras que GRPO utiliza directamente estadísticas basadas en grupos.
Muestreo grupal :
- GRPO toma una muestra de un grupo de respuestas para cada entrada, centrándose en el rendimiento relativo dentro del grupo en lugar del rendimiento absoluto.
GRPO está diseñado para tareas como el razonamiento, donde el espacio de salida es amplio y las recompensas exactas son computacionalmente costosas de calcular. Al optimizar las actualizaciones de políticas de manera eficiente, GRPO permite el desarrollo de comportamientos de razonamiento sofisticados en modelos como DeepSeek-R1-Zero.
Aspectos destacados del rendimiento
El enfoque innovador de DeepSeek en materia de capacitación y destilación se destaca por su desempeño en diversos puntos de referencia, lo que lo posiciona como un fuerte competidor de líderes de la industria como OpenAI. A continuación, se muestra un desglose de sus logros:
Comparación con los modelos OpenAI
DeepSeek-R1 demuestra su capacidad para rivalizar o incluso superar al o1–1217 de OpenAI en tareas críticas:
Tareas de razonamiento :
- Obtuvo una puntuación de Pass@1 del 79,8 % en el punto de referencia AIME 2024, superando ligeramente a OpenAI-o1–1217.
- En el benchmark MATH-500 , DeepSeek-R1 obtuvo un puntaje del 97,3 % , con un rendimiento similar al de OpenAI y superando significativamente a otros modelos.
Comprensión del contexto largo :
- DeepSeek-R1 se destacó en tareas que requerían un contexto extenso, superando a DeepSeek-V3 y otros modelos en puntos de referencia como FRAMES y ArenaHard .
- Esta capacidad lo hace particularmente efectivo para aplicaciones de análisis de documentos, resumen y razonamiento sobre grandes conjuntos de datos.
Tareas generales :
- Demostró un desempeño superior en escritura creativa y resúmenes, logrando una tasa de victorias del 92,3 % en ArenaHard y del 87,6 % en AlpacaEval 2.0.
- Se destacó en puntos de referencia como GPQA Diamond , demostrando su capacidad para manejar consultas educativas y fácticas con gran precisión.
Modelos destilados en acción
El proceso de destilación de DeepSeek ha desbloqueado poderosas capacidades de razonamiento en modelos más pequeños y rentables, abriendo nuevas posibilidades para aplicaciones del mundo real.
Logros de los modelos más pequeños :
Qwen-32B :
- Obtuvo puntuaciones Pass@1 del 72,6 % en AIME 2024 y del 94,3 % en MATH-500 , superando a muchos modelos de código abierto más grandes.
- Demostró un sólido desempeño en tareas de codificación, obteniendo una puntuación de 62,1 % en LiveCodeBench y una calificación de Codeforces de 1691 .
Qwen-7B y 14B :
- Modelos más pequeños como Qwen-7B aún superaron a sus contrapartes más grandes y menos optimizadas en parámetros clave de razonamiento y codificación, lo que demuestra la eficacia de las técnicas de destilación de DeepSeek.
Implicaciones económicas y prácticas :
- Los modelos más pequeños, como Qwen-7B y Qwen-14B, requieren significativamente menos potencia computacional, lo que los hace ideales para organizaciones con recursos limitados.
- Estos modelos aportan capacidades de razonamiento avanzadas a implementaciones sensibles a los costos, democratizando el acceso a la IA de alto rendimiento.
Por qué esto es importante
El rendimiento de DeepSeek resalta su capacidad para:
- Compite con gigantes propietarios como OpenAI en tareas de razonamiento, matemáticas y codificación.
- Ofrezca soluciones de IA escalables potenciando modelos más pequeños sin comprometer la calidad.
- Descubra nuevas aplicaciones, especialmente para escenarios económicos que requieren razonamiento avanzado, comprensión de contextos amplios y resolución creativa de problemas.
A través de sus sólidos puntos de referencia y su enfoque en la eficiencia, DeepSeek está redefiniendo lo que es posible para el rendimiento y la accesibilidad de LLM.
Desafíos y lecciones aprendidas
El proceso de desarrollo de los modelos de alto rendimiento de DeepSeek no estuvo exento de obstáculos. Los desafíos que se presentaron en el camino no solo moldearon el proceso de desarrollo, sino que también brindaron información valiosa para mejorar el razonamiento en los LLM.
Obstáculos iniciales
Problemas de legibilidad :
- Las primeras iteraciones, como DeepSeek-R1-Zero , a menudo producían respuestas que eran difíciles de leer o interpretar.
- Los resultados adolecían de falta de coherencia, con respuestas que mezclaban varios idiomas o carecían de un formato fácil de usar.
Mezcla de idiomas :
- Debido a la ausencia de mecanismos estrictos de formato y alineación en la fase de aprendizaje de refuerzo (RL), los resultados ocasionalmente combinaban inglés y chino, incluso cuando las consultas eran monolingües.
- Esta inconsistencia redujo la usabilidad y obstaculizó una aplicación más amplia.
Intentos fallidos
Durante el proceso de desarrollo se probaron varias estrategias pero finalmente resultaron insuficientes debido a su complejidad o problemas de escalabilidad:
Modelos de recompensa de procesos (PRM) :
- Estos modelos pretenden guiar el razonamiento asignando recompensas a los pasos intermedios en un proceso de solución.
Desafíos :
- Definir pasos de razonamiento detallados para diversas tareas resultó difícil.
- Las anotaciones automatizadas eran propensas a errores, mientras que las anotaciones manuales consumían muchos recursos y no eran escalables.
- Los PRM eran susceptibles al hackeo de recompensas , donde el modelo explotaba lagunas en el sistema de recompensas en lugar de mejorar genuinamente.
Búsqueda de árboles de Monte Carlo (MCTS) :
- Inspirado por AlphaGo, se utilizó MCTS para explorar sistemáticamente el espacio de soluciones dividiendo las respuestas en partes más pequeñas.
Desafíos :
- La generación a nivel de token amplió significativamente el espacio de búsqueda, haciéndolo computacionalmente inviable.
- Entrenar un modelo de valor sólido para guiar la búsqueda fue intrínsecamente difícil, lo que resultó en una escalabilidad deficiente.
- El enfoque a menudo convergía hacia óptimos locales, lo que limitaba su eficacia para tareas de razonamiento complejas.
Superando los desafíos
Para abordar estas limitaciones, DeepSeek introdujo innovaciones clave que mejoraron el rendimiento, la facilidad de uso y la escalabilidad:
- Mejoras de legibilidad :
- En DeepSeek-R1 se introdujo una fase de ajuste fino de inicio en frío , utilizando datos de cadenas de pensamiento (CoT) largos y cuidadosamente seleccionados en un formato consistente.
- Se agregó una recompensa por consistencia del idioma durante el aprendizaje directo para penalizar los resultados con idiomas mixtos, lo que garantiza respuestas fáciles de usar.
Canalización de RL mejorada :
- En lugar de PRM, DeepSeek utilizó una combinación de recompensas de precisión y recompensas de formato para guiar el aprendizaje sin requerir anotaciones manuales.
- Al optimizar el sistema de recompensas para evaluar los resultados de manera integral, el modelo evitó errores como la piratería de recompensas.
Innovaciones escalables :
- Se reemplazó el MCTS con un enfoque de muestreo de rechazo más simple para seleccionar respuestas de alta calidad de los puntos de control de RL intermedios.
- Se combinaron diversas señales de recompensa, garantizando que el modelo sobresaliera no sólo en las tareas de razonamiento, sino también en la alineación con las preferencias humanas.
Puntos clave
- Los desafíos enfrentados durante el desarrollo subrayaron la importancia de equilibrar la complejidad con la practicidad en los procesos de entrenamiento de modelos.
- Innovaciones como el ajuste fino del inicio en frío, el muestreo de rechazo y las recompensas por consistencia del lenguaje permitieron a DeepSeek superar sus limitaciones iniciales.
- Estas lecciones ayudaron a refinar las capacidades de razonamiento del modelo y sentaron las bases para un desempeño sólido y escalable en todas las tareas.
Al abordar estos obstáculos de frente, DeepSeek ha sentado un precedente para la creación de LLM orientados al razonamiento que no solo son potentes sino también prácticos y accesibles para diversas aplicaciones.
Direcciones futuras
Si bien los logros actuales de DeepSeek marcan un progreso significativo en el razonamiento para modelos de lenguaje grandes (LLM), aún quedan áreas por mejorar y explorar. La hoja de ruta futura de DeepSeek apunta a mejorar sus capacidades generales, abordar las limitaciones identificadas y expandir su aplicabilidad a tareas más complejas y casos de uso diversos.
1. Mejora de las capacidades generales
El desempeño de DeepSeek en tareas de razonamiento es ejemplar, pero existen oportunidades para mejorar sus capacidades de propósito general:
Interacciones multi-turno :
- Desarrollar modelos que manejen diálogos complejos de múltiples turnos con mejor retención del contexto y consistencia lógica.
Llamada de función y salida JSON :
- Equipe los modelos con capacidades de salida estructurada robustas para soportar integraciones de API y aplicaciones de ingeniería de software.
Juegos de rol y tareas creativas :
- Amplíe la creatividad y la flexibilidad del modelo para escenarios como la narración de historias, la improvisación y la actuación como personajes especializados.
2. Cómo abordar la mezcla de idiomas
Uno de los problemas persistentes en DeepSeek es la mezcla de idiomas , especialmente al manejar entradas multilingües:
Desafío actual :
- DeepSeek-R1 tiende a responder en inglés o chino, incluso para consultas en otros idiomas, lo que crea inconsistencias.
Metas futuras :
- Mejore el soporte multilingüe incorporando datos de capacitación específicos e introduciendo técnicas de alineación específicas del idioma.
- Asegúrese de que el modelo mantenga la fidelidad del lenguaje en diversas consultas lingüísticas.
3. Mejorar la sensibilidad de las indicaciones
La sensibilidad de DeepSeek a las indicaciones es una limitación conocida:
Asunto :
- Los mensajes con pocos disparos a menudo degradan el rendimiento, mientras que los mensajes con cero disparos producen resultados óptimos.
Mejoras planificadas :
- Desarrollar técnicas robustas de ingeniería rápida para garantizar un rendimiento consistente en varios formatos de entrada.
- Entrene el modelo en una variedad más amplia de estilos de indicaciones para mejorar la generalización.
4. Escalabilidad en ingeniería de software
DeepSeek ha demostrado tener un gran potencial en tareas de razonamiento relacionadas con la codificación y el desarrollo de software. Sin embargo, para ampliarlo aún más, se requiere una atención especial:
Desafíos :
- Los largos tiempos de evaluación en tareas de ingeniería de software obstaculizan la eficiencia del entrenamiento RL.
- Disponibilidad limitada de datos específicos del dominio.
Estrategias futuras :
- Implementar evaluaciones asincrónicas durante el aprendizaje permanente para mejorar la eficiencia del entrenamiento.
- Utilice muestreo de rechazo y conjuntos de datos especializados para ingeniería de software para acelerar el refinamiento del modelo.
5. Ampliación de las técnicas de destilación
El proceso de destilación de DeepSeek ha demostrado ser eficaz para crear modelos más pequeños, pero hay espacio para la innovación:
Áreas de exploración :
- Investigar la integración del aprendizaje de refuerzo en el proceso de destilación para mejorar aún más los modelos más pequeños.
- Optimice las técnicas de destilación para entornos con recursos limitados, como dispositivos perimetrales o aplicaciones móviles.
6. Ampliación de la investigación sobre alineación
La alineación con las preferencias humanas sigue siendo un enfoque central:
Direcciones futuras :
- Perfeccionar los modelos de recompensa para captar mejor la retroalimentación humana matizada.
- Realizar pruebas de seguridad más amplias para mitigar posibles riesgos, sesgos o contenido dañino en las respuestas.
Visión para el futuro
DeepSeek tiene como objetivo ampliar los límites de lo que pueden lograr los modelos de razonamiento, no solo mejorando sus capacidades, sino también haciéndolos accesibles y confiables en todas las industrias. Al abordar estas direcciones futuras, DeepSeek tiene el potencial de establecer nuevos puntos de referencia en IA, cerrando aún más la brecha entre la investigación de vanguardia y la implementación práctica.
Con estos avances, DeepSeek está bien posicionado para liderar la próxima ola de innovación en IA centrada en el razonamiento, ofreciendo soluciones potentes, escalables y alineadas con las necesidades humanas.
Presentamos el modelo DeepSeek-R1-Zero

El artículo que estamos revisando hoy elimina, o elimina parcialmente, la etapa de ajuste fino supervisado. Específicamente, para entrenar DeepSeek-R1-Zero , el primer modelo presentado en el artículo, comenzamos con un modelo preentrenado llamado DeepSeek-V3-Base , que tiene 671 mil millones de parámetros. La etapa de ajuste fino supervisado se omite por completo. Para ejecutar el aprendizaje de refuerzo a gran escala, en lugar de utilizar el aprendizaje de refuerzo estándar con retroalimentación humana o de IA, se emplea un método de aprendizaje de refuerzo basado en reglas .
Aprendizaje por refuerzo basado en reglas

El método de aprendizaje de refuerzo utilizado se llama Optimización de Política Relativa de Grupo (GRPO) , desarrollado internamente en DeepSeek.
Dado un modelo para entrenar y un problema de entrada, la entrada se introduce en el modelo y se toma una muestra de un grupo de resultados. Cada resultado consta de un proceso de razonamiento y una respuesta. El método GRPO observa estos resultados muestreados y entrena al modelo para generar las opciones preferidas calculando una recompensa para cada resultado utilizando reglas predefinidas:
- Precisión: un conjunto de reglas calcula una recompensa por precisión. Por ejemplo, en problemas matemáticos con resultados deterministas, podemos verificar de manera confiable si la respuesta final proporcionada por el modelo es correcta. En el caso de problemas de código con casos de prueba predefinidos, un compilador genera comentarios basados en los casos de prueba.
- Formato: Otro tipo de regla crea recompensas de formato. En la siguiente figura del artículo, podemos ver cómo se le indica al modelo que responda, con su proceso de razonamiento dentro de las etiquetas <think> y la respuesta dentro de las etiquetas <answer>. La recompensa de formato garantiza que el modelo siga este formato.
Este mecanismo basado en reglas, que no utiliza un modelo neuronal para generar recompensas, simplifica y reduce el costo del proceso de entrenamiento, haciéndolo factible a gran escala. Además, los investigadores descubrieron que los modelos de recompensa pueden sufrir piratería de recompensas, donde el modelo descubre una laguna o una forma no deseada de maximizar la recompensa, que no se alinea con el objetivo deseado.

Información sobre el rendimiento de DeepSeek-R1-Zero
Exploremos ahora algunos aspectos del rendimiento del modelo DeepSeek-R1-Zero.

En la tabla anterior del artículo, vemos una comparación de DeepSeek-R1-Zero y o1 de OpenAI en los puntos de referencia relacionados con el razonamiento. Sorprendentemente, DeepSeek-R1-Zero es comparable a o1 e incluso lo supera en algunos casos. La siguiente figura fascinante del artículo muestra el progreso de la mejora durante el entrenamiento, medido en el conjunto de datos AIME. En particular, la puntuación promedio de aprobado@1 en AIME aumenta significativamente, pasando de un 15,6 % inicial a un impresionante 71,0 %, alcanzando niveles comparables a o1 de OpenAI.

Proceso de autoevolución de DeepSeek-R1-Zero

Una idea clave del artículo es el proceso de autoevolución del modelo, ilustrado en la figura anterior. El eje x muestra el número de pasos de entrenamiento, mientras que el eje y indica que, a medida que avanza el entrenamiento, la longitud de respuesta del modelo aumenta. A través del aprendizaje por refuerzo, el modelo aprende de forma natural a dedicar más tiempo al pensamiento al resolver tareas de razonamiento . Sorprendentemente, esto ocurre sin ningún ajuste externo.
El fenómeno del momento “ajá”
Si lo anterior no fuera suficiente, existe otro fenómeno intrigante al que se hace referencia en el artículo como el «momento revelador» de DeepSeek-R1-Zero. El siguiente ejemplo del artículo demuestra este fenómeno. Dada una pregunta matemática, el modelo comienza su proceso de razonamiento. Sin embargo, en un momento determinado, el modelo comienza a reevaluar su solución. El modelo aprende a reevaluar su enfoque inicial y a corregirse a sí mismo si es necesario . Esta notable capacidad surge de forma natural durante el entrenamiento de aprendizaje de refuerzo.

Proceso de entrenamiento del modelo DeepSeek-R1
Analicemos ahora el proceso de entrenamiento del segundo modelo, llamado DeepSeek-R1 . Pero primero, ¿por qué necesitamos un segundo modelo dadas las notables capacidades que acabamos de ver?
¿Por qué es necesario DeepSeek-R1?
Hay dos razones principales:
- Problemas de legibilidad: las salidas de DeepSeek-R1-Zero a menudo sufren de mala legibilidad.
- Coherencia del lenguaje: con frecuencia mezcla idiomas en una sola respuesta.
Lo anterior hace que DeepSeek-R1-Zero sea menos fácil de usar. Curiosamente, un estudio de ablación muestra que guiar al modelo para que sea coherente con un solo idioma perjudica ligeramente su rendimiento . Es fascinante que el modelo aprenda a expresarse mejor al usar más de un idioma, a diferencia de los humanos que generalmente se limitan a un solo idioma.
Proceso de formación de DeepSeek-R1

Para abordar estos problemas, DeepSeek-R1 se entrena en un proceso de cuatro fases:
- Inicio en frío (fase 1): a partir del modelo preentrenado DeepSeek-V3-Base, el modelo se somete a un ajuste fino supervisado en un pequeño conjunto de datos de resultados recopilados de DeepSeek-R1-Zero. Estos resultados se validaron como de alta calidad y legibles. Este conjunto de datos contiene miles de muestras, lo que lo hace relativamente pequeño. La incorporación de una fase de ajuste fino supervisada en este pequeño conjunto de datos de alta calidad ayuda a DeepSeek-R1 a mitigar los problemas de legibilidad observados en el modelo inicial.
- Aprendizaje por refuerzo del razonamiento (fase 2): esta fase aplica el mismo aprendizaje por refuerzo a gran escala que hemos revisado para el modelo anterior con el fin de mejorar las capacidades de razonamiento del modelo. En concreto, en tareas como la codificación, las matemáticas, las ciencias y el razonamiento lógico, donde las soluciones claras pueden definir reglas gratificantes para el proceso de aprendizaje por refuerzo.
- Muestreo de rechazo y ajuste fino supervisado (fase 3): en esta fase, se utiliza el punto de control del modelo de la fase 2 para generar muchas muestras. Con el muestreo de rechazo, solo se conservan las muestras correctas y legibles. Además, se utiliza un modelo de recompensa generativo, DeepSeek-V3, para decidir qué muestras se deben conservar. Algunos de los datos de entrenamiento de DeepSeek-V3 también se incluyen en esta fase. Luego, el modelo se entrena en este conjunto de datos mediante un ajuste fino supervisado. Este conjunto de datos incluye más que preguntas orientadas al razonamiento, lo que mejora las capacidades del modelo en más dominios.
- Fase de aprendizaje por refuerzo diverso (fase 4): esta fase final incluye diversas tareas. Se utilizan recompensas basadas en reglas para las tareas que lo permiten, como las matemáticas. Para otras tareas, un LLM proporciona retroalimentación para alinear el modelo con las preferencias humanas.
Además, se destilaron varios modelos de código abierto más pequeños utilizando el conjunto de datos construido en la fase 3, ofreciendo alternativas más pequeñas con altas capacidades de razonamiento.
Resultados notables de DeepSeek-R1

Concluimos esta revisión destacando los resultados notables del modelo DeepSeek-R1 disponible de forma gratuita en comparación con el modelo o1 de OpenAI. La figura anterior del artículo muestra cómo DeepSeek-R1 no solo es comparable con o1, sino que también lo supera en ciertos puntos de referencia.
Además, el modelo destilado de 32 mil millones de parámetros también demuestra un rendimiento impresionante, lo que lo convierte en una alternativa viable más pequeña con altas capacidades de razonamiento.
Referencias:
DeepSeek-AI. (2025). DeepSeek-R1: Incentivando la capacidad de razonamiento en los LLM a través del aprendizaje por refuerzo . Preimpresión de arXiv . Recuperado de https://arxiv.org/abs/2501.12948
DeepSeek la IA como ChatGPT pero Open Source (es Gratis)
3 Libros De Regalo con 100 Prompts. Aprende a Ejecutar la IA de forma local (Privada), a usar Agentes IA con Deepseek
Accede ahora desde este enlace: https://achirou.com/deepseek
Lo que aprenderás
- Creación de un Agente de IA con Deepseek
- Prompt engineering (ingenieria de prompt) con deepseek
- Uso de Deepseek con Practica para diferentes tareas (creación de ebook, Marketing digital, etc)
- Creación de Agente de IA con deepseek
- Practica de creación de Agente con IA
- Ejecuta la IA Generativa LLM de forma Local para mayor Privacidad

¿Te gustaría aprovechar el poder de la inteligencia artificial sin depender de herramientas de pago? DeepSeek es una alternativa open-source a ChatGPT que te permite automatizar tareas, mejorar tu productividad y ofrecer servicios basados en IA sin restricciones.
En este curso 100% práctico, aprenderás a utilizar DeepSeek para diferentes aplicaciones, desde la generación de contenido hasta el marketing digital y la automatización de procesos. Además, te enseñaremos a crear tu propio agente de IA personalizado con DeepSeek, lo que te permitirá desarrollar soluciones inteligentes adaptadas a tus necesidades o a las de tus clientes.
Como bono especial, recibirás 3 libros con 100 prompts para que puedas aplicar lo aprendido de inmediato en distintas áreas:
- Vender servicios con IA
- Aumentar tu productividad
- Simplificar tareas complejas
¿Qué aprenderás?
Creación de un agente de IA con DeepSeek
Ingeniería de prompt aplicada a DeepSeek
Uso práctico de DeepSeek en tareas como:
- Creación de eBooks
- Automatización de contenido
- Estrategias de marketing digital
Implementación de agentes de IA en distintos casos de uso
Ejercicios prácticos para desarrollar tus propias soluciones
Este curso es ideal para freelancers, emprendedores, marketers y cualquier persona que quiera aprovechar la IA sin costos adicionales.
¡Únete ahora y descubre cómo DeepSeek puede transformar tu manera de trabajar!
Accede ahora desde este enlace: https://achirou.com/deepseek
No te detengas, sigue avanzando
Aprende con nuestros más de 100 cursos que tenemos disponibles para vos
¿Te gustaría enterarte de cuando lanzamos descuentos y nuevos cursos?

Sobre la autora
Romina Orlando
Con más de 20 años de experiencia en liderazgo, gestión financiera y empresarial. Brindo Educación y Consultoría a profesionales, bancos y empresas. Puedes seguirme en mis redes:
Compartimos estos recursos para ayudar a la comunidad. COMPARTE y Siéntete libre de agregar más sugerencias en los comentarios a continuación, respondemos todos y cada uno de los comentarios.