{ "@context": "https://schema.org/", "@graph": [ { "@type": "NewsArticle", "mainEntityOfPage": { "@type": "Webpage", "url": "/next/2025/01/28/que-es-deepseek-la-revolucionaria-herramienta-de-inteligencia-artificial-en-8-preguntas" }, "headline": "\u00bfQu\u00e9 es DeepSeek?: La revolucionaria herramienta de inteligencia artificial en 8 preguntas", "description": "DeepSeek, el \u00faltimo de una serie de modelos desarrollados con pocos chips y bajo coste, desaf\u00eda el dominio de gigantes como OpenAI, Google y Meta.", "articleBody": "El gran modelo ling\u00fc\u00edstico (LLM) del laboratorio chino de inteligencia artificial DeepSeek ha sorprendido a Silicon Valley al convertirse en uno de los mayores competidores de ChatGPT, de la empresa estadounidense OpenAI. Su irrupci\u00f3n ha sacudido a los mercados estadounidenses.Los \u00faltimos modelos de DeepSeek, lanzados este mes, son extremadamente r\u00e1pidos y baratos. El DeepSeek-R1, el \u00faltimo de los modelos desarrollados con menos chips, desaf\u00eda el dominio de gigantes como OpenAI, Google y Meta.He aqu\u00ed DeepSeek en ocho preguntas:1. \u00bfDe d\u00f3nde viene DeepSeek?La empresa, con sede en Hangzhou (China), fue fundada en julio de 2023 por Liang Wenfeng, ingeniero inform\u00e1tico y electr\u00f3nico licenciado por la Universidad de Zhejiang. Formaba parte del programa de incubaci\u00f3n de High-Flyer, un fondo que Liang fund\u00f3 en 2015. Liang, como otros nombres destacados del sector, aspira a alcanzar el nivel de \u0022inteligencia general artificial\u0022 que pueda alcanzar o superar a los humanos en diversas tareas.Al operar de forma independiente, el modelo de financiaci\u00f3n de DeepSeek le permite llevar a cabo ambiciosos proyectos de IA sin la presi\u00f3n de inversores externos y priorizar la investigaci\u00f3n y el desarrollo a largo plazo. El equipo de DeepSeek est\u00e1 formado por j\u00f3venes licenciados con talento de las mejores universidades chinas y fomenta la cultura de la innovaci\u00f3n. El proceso de contrataci\u00f3n de la empresa da prioridad a las aptitudes t\u00e9cnicas sobre la experiencia laboral. En definitiva, se considera que tiene una nueva perspectiva en el proceso de desarrollo de modelos de inteligencia artificial.La trayectoria de DeepSeek comenz\u00f3 en noviembre de 2023 con el lanzamiento de DeepSeek Coder, un modelo de c\u00f3digo abierto dise\u00f1ado para tareas de codificaci\u00f3n. Le sigui\u00f3 DeepSeek LLM, cuyo objetivo era competir con otros grandes modelos ling\u00fc\u00edsticos. DeepSeek-V2, lanzado en mayo de 2024, gan\u00f3 adeptos gracias a su gran rendimiento y bajo coste. Tambi\u00e9n oblig\u00f3 a otros grandes gigantes tecnol\u00f3gicos chinos como ByteDance, Tencent, Baidu y Alibaba a bajar los precios de sus modelos de IA.2. \u00bfCu\u00e1l es la capacidad de los modelos DeepSeek?DeepSeek-V2 fue sustituido posteriormente por DeepSeek-Coder-V2, un modelo m\u00e1s avanzado con 236.000 millones de par\u00e1metros. Dise\u00f1ado para peticiones de codificaci\u00f3n complejas, el modelo tiene una ventana de contexto elevada de hasta 128.000 tokens. Una ventana de contexto de 128.000 tokens es la longitud m\u00e1xima de texto de entrada que el modelo puede procesar simult\u00e1neamente.Una ventana de contexto m\u00e1s amplia permite al modelo comprender, resumir o analizar textos m\u00e1s largos. Esto supone una gran ventaja, por ejemplo, cuando se trabaja con documentos largos, libros o di\u00e1logos complejos. Un token es una unidad de un texto. A menudo, esta unidad puede ser una palabra, una part\u00edcula (como \u0022artificial\u0022 e \u0022inteligencia\u0022) o incluso un car\u00e1cter. Por ejemplo: \u0022\u00a1La inteligencia artificial es genial!\u0022 puede constar de cuatro tokens: Artificial\u0022, \u0022inteligencia\u0022, \u0022genial\u0022, \u0022!\u0022.Los \u00faltimos modelos de la empresa, DeepSeek-V3 y DeepSeek-R1, han consolidado a\u00fan m\u00e1s su posici\u00f3n. DeepSeek-V3, un modelo de 671.000 par\u00e1metros, requiere muchos menos recursos que sus hom\u00f3logos, al tiempo que obtiene unos resultados impresionantes en diversas pruebas comparativas con otras marcas. El DeepSeek-R1, lanzado en enero de 2025, se centra en tareas complejas como el razonamiento, la codificaci\u00f3n y las matem\u00e1ticas. Con sus capacidades en este \u00e1mbito, desaf\u00eda al o1, uno de los \u00faltimos modelos de ChatGPT.Aunque DeepSeek ha logrado un \u00e9xito significativo en poco tiempo, 'Forbes' escribi\u00f3 que la empresa se centra principalmente en la investigaci\u00f3n y no tiene planes detallados de comercializaci\u00f3n en un futuro pr\u00f3ximo.3. \u00bfEs gratuito para el ?Una de las principales razones por las que DeepSeek ha logrado atraer la atenci\u00f3n es que es gratuito para los s finales. De hecho, se trata del primer sistema de inteligencia artificial avanzada de este tipo a disposici\u00f3n de los s de forma gratuita. Otros sistemas potentes como OpenAI o1 y Claude Sonnet requieren una suscripci\u00f3n de pago. Incluso algunas suscripciones imponen cuotas a los s.Google Gemini tambi\u00e9n est\u00e1 disponible de forma gratuita, pero las versiones gratuitas se limitan a los modelos m\u00e1s antiguos. DeepSeek no tiene limitaciones por ahora.4. \u00bfC\u00f3mo utilizarlo?Los s pueden acceder a la interfaz de chat de DeepSeek desarrollada para el final en chat.deepseek. Basta con introducir comandos en la pantalla de chat y pulsar el bot\u00f3n 'search' para buscar en internet.Existe la opci\u00f3n 'deep think' para obtener informaci\u00f3n m\u00e1s detallada sobre cualquier tema. Aunque esta opci\u00f3n proporciona respuestas m\u00e1s detalladas a las peticiones de los s, tambi\u00e9n puede buscar m\u00e1s sitios en el buscador. Sin embargo, a diferencia de ChatGPT, que s\u00f3lo busca bas\u00e1ndose en determinadas fuentes, esta funci\u00f3n tambi\u00e9n puede revelar informaci\u00f3n falsa en algunos sitios peque\u00f1os. Por lo tanto, los s necesitan confirmar la informaci\u00f3n que obtienen en este chat bot.Los s que han utilizado esta IA han comentado sus limitaciones a la hora de tratar ciertos temas pol\u00edticos e hist\u00f3ricos en China. 5. \u00bfEs seguro?Otra pregunta importante sobre el uso de DeepSeek es si es seguro. DeepSeek, al igual que otros servicios, requiere datos del , que probablemente se almacenan en servidores en China.Como con cualquier LLM, es importante que los s no den datos sensibles al chatbot. Como DeepSeek tambi\u00e9n es de c\u00f3digo abierto, investigadores independientes pueden examinar el c\u00f3digo del modelo e intentar determinar si es seguro. Se espera que en los pr\u00f3ximos d\u00edas se publique informaci\u00f3n m\u00e1s detallada sobre los problemas de seguridad.6. \u00bfQu\u00e9 significa c\u00f3digo abierto?Los modelos, incluido DeepSeek-R1, se han publicado en su mayor parte como c\u00f3digo abierto. Esto significa que cualquiera puede acceder al c\u00f3digo de la herramienta y utilizarlo para personalizar el LLM. Los datos de entrenamiento est\u00e1n protegidos.OpenAI, por su parte, hab\u00eda liberado el modelo o1 cerrado y ya lo est\u00e1 vendiendo s\u00f3lo a s, incluso a s, con paquetes de 20 a 200 d\u00f3lares al mes.7. \u00bfC\u00f3mo ha conseguido producir un modelo as\u00ed a pesar de las restricciones de EE.UU.?La empresa tambi\u00e9n ha establecido colaboraciones estrat\u00e9gicas para mejorar sus capacidades tecnol\u00f3gicas y su alcance en el mercado. Una de las colaboraciones notables fue con la empresa estadounidense de chips AMD. Seg\u00fan 'Forbes', DeepSeek utiliz\u00f3 las GPU (unidades de procesamiento gr\u00e1fico) AMD Instinct y el software ROCM en fases clave del desarrollo del modelo, sobre todo para DeepSeek-V3.MIT Technology Review inform\u00f3 de que Liang hab\u00eda adquirido importantes existencias de chips Nvidia A100, un tipo cuya exportaci\u00f3n a China est\u00e1 actualmente prohibida, mucho antes de las sanciones impuestas por Estados Unidos a China. El medio de comunicaci\u00f3n chino '36Kr' calcula que la empresa tiene m\u00e1s de 10.000 unidades en stock. Algunos dicen que esta cifra asciende a 50.000. Al darse cuenta de la importancia de estas existencias para el entrenamiento de la IA, Liang fund\u00f3 DeepSeek y empez\u00f3 a utilizarlas junto con chips de bajo consumo para mejorar sus modelos.Pero lo importante aqu\u00ed es que Liang ha encontrado la forma de construir modelos competentes con pocos recursos. Las restricciones estadounidenses a la exportaci\u00f3n de chips obligaron a los desarrolladores de DeepSeek a crear algoritmos m\u00e1s inteligentes y eficientes energ\u00e9ticamente para compensar su falta de potencia de c\u00e1lculo. Se cree que ChatGPT necesita 10.000 GPU de Nvidia para procesar los datos de entrenamiento. Los ingenieros de DeepSeek afirman haber conseguido resultados similares con s\u00f3lo 2.000 GPU.8. \u00bfCu\u00e1les son las t\u00e9cnicas innovadoras de DeepSeek?El \u00e9xito de DeepSeek puede atribuirse a varias innovaciones importantes.Aprendizaje por refuerzo: a diferencia de los m\u00e9todos tradicionales, que dependen en gran medida del ajuste fino supervisado, DeepSeek utiliza RL puro, seg\u00fan el tecn\u00f3logo Janakiram MSV. En el perfeccionamiento supervisado, el modelo suele entrenarse en un gran conjunto de datos antes del perfeccionamiento. El uso de la RL pura significa que un sistema de IA se entrena utilizando \u00fanicamente m\u00e9todos de aprendizaje por refuerzo. Esto significa que el modelo aprende \u00fanicamente a trav\u00e9s de mecanismos de recompensa y castigo, sin datos extra\u00eddos por humanos ni m\u00e9todos de aprendizaje supervisado. Este enfoque es especialmente eficaz para mejorar las capacidades de razonamiento de DeepSeek-R1.Arquitectura MoE: la arquitectura Mixture of Experts, o Mezcla de Expertos, es un sistema innovador de diferentes expertos en modelos de inteligencia artificial. Aqu\u00ed, se seleccionan varios expertos como los m\u00e1s adecuados para la entrada del y s\u00f3lo ellos trabajan. De este modo, se aumenta el rendimiento de los grandes modelos y se reduce el coste de procesamiento. Se puede pensar en ello como un equipo de expertos, cada uno especializado en un \u00e1rea diferente. Ante una tarea, s\u00f3lo se recurre a los expertos pertinentes, lo que garantiza un uso eficiente de los recursos y la experiencia.Atenci\u00f3n latente multicabezal: este m\u00e9todo permite a un modelo aprender las relaciones entre las representaciones latentes y las entradas utilizando diferentes cabezales de atenci\u00f3n. Sirve para procesar la informaci\u00f3n de forma m\u00e1s flexible, potente y detallada. Se puede considerar como m\u00faltiples \u0022cabezas de atenci\u00f3n\u0022 que pueden centrarse en distintas partes de los datos de entrada, lo que permite al modelo comprender la informaci\u00f3n de forma m\u00e1s exhaustiva.Destilaci\u00f3n: DeepSeek utiliza t\u00e9cnicas de destilaci\u00f3n para transferir los conocimientos y capacidades de modelos m\u00e1s grandes a otros m\u00e1s peque\u00f1os y eficientes. Esto es similar a cuando un profesor transfiere conocimientos a un alumno. Permite al alumno realizar tareas de similar competencia pero con menos experiencia o recursos. El proceso de destilaci\u00f3n de DeepSeek permite que los modelos m\u00e1s peque\u00f1os hereden las capacidades avanzadas de razonamiento y procesamiento del lenguaje de sus hom\u00f3logos m\u00e1s grandes, haci\u00e9ndolos m\u00e1s vers\u00e1tiles y accesibles.En resumen, al utilizar arquitecturas eficientes como RL y MoE, DeepSeek reduce significativamente los recursos computacionales necesarios para el entrenamiento y puede completarlo con menores costes. Por ejemplo, DeepSeek-V3 se entren\u00f3 por una fracci\u00f3n del coste de los modelos de Meta.Alexandr Wang, consejero delegado de ScaleAI, que proporciona datos de entrenamiento a los modelos de IA de grandes empresas como OpenAI y Google, describi\u00f3 el producto de DeepSeek como \u0022un modelo revolucionario\u0022 en un discurso pronunciado el jueves en el Foro Econ\u00f3mico Mundial (FEM) de Davos (Suiza).", "dateCreated": "2025-01-27T19:56:31+01:00", "dateModified": "2025-01-28T12:00:27+01:00", "datePublished": "2025-01-28T12:00:23+01:00", "image": { "@type": "ImageObject", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Farticles%2Fstories%2F09%2F00%2F69%2F48%2F1440x810_cmsv2_4b3d5a33-60f6-5a9c-b545-18ffed37b354-9006948.jpg", "width": 1440, "height": 810, "caption": "DeepSeek tambi\u00e9n provoc\u00f3 un terremoto en los mercados tecnol\u00f3gicos", "thumbnail": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Farticles%2Fstories%2F09%2F00%2F69%2F48%2F432x243_cmsv2_4b3d5a33-60f6-5a9c-b545-18ffed37b354-9006948.jpg", "publisher": { "@type": "Organization", "name": "euronews", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Fwebsite%2Fimages%2Feuronews-logo-main-blue-403x60.png" } }, "author": [ { "@type": "Person", "familyName": "Uren", "givenName": "Cagla", "name": "Cagla Uren", "url": "/perfiles/3166", "worksFor": { "@type": "Organization", "name": "Euronews", "url": "/", "logo": { "@type": "ImageObject", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Fwebsite%2Fimages%2Feuronews-logo-main-blue-403x60.png", "width": 403, "height": 60 }, "sameAs": [ "https://www.facebook.com/es.euronews", "https://www.instagram.com/euronewses/", "https://flipboard.com/@euronewses", "https://twitter.com/euronewses", "https://www.linkedin.com/company/euronews" ] }, "sameAs": "https://www.x.com/caglauren", "memberOf": { "@type": "Organization", "name": "R\u00e9daction" } } ], "publisher": { "@type": "Organization", "name": "Euronews", "legalName": "Euronews", "url": "/", "logo": { "@type": "ImageObject", "url": "https://image.staticox.com/?url=https%3A%2F%2Fstatic.euronews.com%2Fwebsite%2Fimages%2Feuronews-logo-main-blue-403x60.png", "width": 403, "height": 60 }, "sameAs": [ "https://www.facebook.com/es.euronews", "https://www.instagram.com/euronewses/", "https://flipboard.com/@euronewses", "https://twitter.com/euronewses", "https://www.linkedin.com/company/euronews" ] }, "articleSection": [ "Negocios Tecnologia" ], "isAccessibleForFree": "False", "hasPart": { "@type": "WebPageElement", "isAccessibleForFree": "False", "cssSelector": ".poool-content" } }, { "@type": "WebSite", "name": "Euronews.com", "url": "/", "potentialAction": { "@type": "SearchAction", "target": "/search?query={search_term_string}", "query-input": "required name=search_term_string" }, "sameAs": [ "https://www.facebook.com/es.euronews", "https://www.instagram.com/euronewses/", "https://flipboard.com/@euronewses", "https://twitter.com/euronewses", "https://www.linkedin.com/company/euronews" ] } ] }
NewsletterNewslettersEventsEventosPodcastsVideosAfricanews
Loader
Encuéntranos
InstagramFlipboardLinkedin
PUBLICIDAD

¿Qué es DeepSeek?: La revolucionaria herramienta de inteligencia artificial en 8 preguntas

DeepSeek también provocó un terremoto en los mercados tecnológicos
DeepSeek también provocó un terremoto en los mercados tecnológicos Derechos de autor DeepSeek
Derechos de autor DeepSeek
Por Cagla Uren
Publicado Ultima actualización
Compartir esta noticiaComentarios
Compartir esta noticiaClose Button

DeepSeek, el último de una serie de modelos desarrollados con pocos chips y bajo coste, desafía el dominio de gigantes como OpenAI, Google y Meta.

PUBLICIDAD

El gran modelo lingüístico (LLM) del laboratorio chino de inteligencia artificial DeepSeek ha sorprendido a Silicon Valley al convertirse en uno de los mayores competidores de ChatGPT, de la empresa estadounidense OpenAI. Su irrupción ha sacudido a los mercados estadounidenses.

Los últimos modelos de DeepSeek, lanzados este mes, son extremadamente rápidos y baratos. El DeepSeek-R1, el último de los modelos desarrollados con menos chips, desafía el dominio de gigantes como OpenAI, Google y Meta.

He aquí DeepSeek en ocho preguntas:

1. ¿De dónde viene DeepSeek?

La empresa, con sede en Hangzhou (China), fue fundada en julio de 2023 por Liang Wenfeng, ingeniero informático y electrónico licenciado por la Universidad de Zhejiang. Formaba parte del programa de incubación de High-Flyer, un fondo que Liang fundó en 2015. Liang, como otros nombres destacados del sector, aspira a alcanzar el nivel de "inteligencia general artificial" que pueda alcanzar o superar a los humanos en diversas tareas.

Al operar de forma independiente, el modelo de financiación de DeepSeek le permite llevar a cabo ambiciosos proyectos de IA sin la presión de inversores externos y priorizar la investigación y el desarrollo a largo plazo. El equipo de DeepSeek está formado por jóvenes licenciados con talento de las mejores universidades chinas y fomenta la cultura de la innovación. El proceso de contratación de la empresa da prioridad a las aptitudes técnicas sobre la experiencia laboral. En definitiva, se considera que tiene una nueva perspectiva en el proceso de desarrollo de modelos de inteligencia artificial.

La trayectoria de DeepSeek comenzó en noviembre de 2023 con el lanzamiento de DeepSeek Coder, un modelo de código abierto diseñado para tareas de codificación. Le siguió DeepSeek LLM, cuyo objetivo era competir con otros grandes modelos lingüísticos. DeepSeek-V2, lanzado en mayo de 2024, ganó adeptos gracias a su gran rendimiento y bajo coste. También obligó a otros grandes gigantes tecnológicos chinos como ByteDance, Tencent, Baidu y Alibaba a bajar los precios de sus modelos de IA.

2. ¿Cuál es la capacidad de los modelos DeepSeek?

DeepSeek-V2 fue sustituido posteriormente por DeepSeek-Coder-V2, un modelo más avanzado con 236.000 millones de parámetros. Diseñado para peticiones de codificación complejas, el modelo tiene una ventana de contexto elevada de hasta 128.000 tokens. Una ventana de contexto de 128.000 tokens es la longitud máxima de texto de entrada que el modelo puede procesar simultáneamente.

Una ventana de contexto más amplia permite al modelo comprender, resumir o analizar textos más largos. Esto supone una gran ventaja, por ejemplo, cuando se trabaja con documentos largos, libros o diálogos complejos. Un token es una unidad de un texto. A menudo, esta unidad puede ser una palabra, una partícula (como "artificial" e "inteligencia") o incluso un carácter. Por ejemplo: "¡La inteligencia artificial es genial!" puede constar de cuatro tokens: Artificial", "inteligencia", "genial", "!".

Los últimos modelos de la empresa, DeepSeek-V3 y DeepSeek-R1, han consolidado aún más su posición. DeepSeek-V3, un modelo de 671.000 parámetros, requiere muchos menos recursos que sus homólogos, al tiempo que obtiene unos resultados impresionantes en diversas pruebas comparativas con otras marcas. El DeepSeek-R1, lanzado en enero de 2025, se centra en tareas complejas como el razonamiento, la codificación y las matemáticas. Con sus capacidades en este ámbito, desafía al o1, uno de los últimos modelos de ChatGPT.

Aunque DeepSeek ha logrado un éxito significativo en poco tiempo, 'Forbes' escribió que la empresa se centra principalmente en la investigación y no tiene planes detallados de comercialización en un futuro próximo.

3. ¿Es gratuito para el ?

Una de las principales razones por las que DeepSeek ha logrado atraer la atención es que es gratuito para los s finales. De hecho, se trata del primer sistema de inteligencia artificial avanzada de este tipo a disposición de los s de forma gratuita. Otros sistemas potentes como OpenAI o1 y Claude Sonnet requieren una suscripción de pago. Incluso algunas suscripciones imponen cuotas a los s.

Google Gemini también está disponible de forma gratuita, pero las versiones gratuitas se limitan a los modelos más antiguos. DeepSeek no tiene limitaciones por ahora.

4. ¿Cómo utilizarlo?

Los s pueden acceder a la interfaz de chat de DeepSeek desarrollada para el final en chat.deepseek. Basta con introducir comandos en la pantalla de chat y pulsar el botón 'search' para buscar en internet.

Existe la opción 'deep think' para obtener información más detallada sobre cualquier tema. Aunque esta opción proporciona respuestas más detalladas a las peticiones de los s, también puede buscar más sitios en el buscador. Sin embargo, a diferencia de ChatGPT, que sólo busca basándose en determinadas fuentes, esta función también puede revelar información falsa en algunos sitios pequeños. Por lo tanto, los s necesitan confirmar la información que obtienen en este chat bot.

Los s que han utilizado esta IA han comentado sus limitaciones a la hora de tratar ciertos temas políticos e históricos en China.

5. ¿Es seguro?

Otra pregunta importante sobre el uso de DeepSeek es si es seguro. DeepSeek, al igual que otros servicios, requiere datos del , que probablemente se almacenan en servidores en China.

Como con cualquier LLM, es importante que los s no den datos sensibles al chatbot. Como DeepSeek también es de código abierto, investigadores independientes pueden examinar el código del modelo e intentar determinar si es seguro. Se espera que en los próximos días se publique información más detallada sobre los problemas de seguridad.

6. ¿Qué significa código abierto?

Los modelos, incluido DeepSeek-R1, se han publicado en su mayor parte como código abierto. Esto significa que cualquiera puede acceder al código de la herramienta y utilizarlo para personalizar el LLM. Los datos de entrenamiento están protegidos.

OpenAI, por su parte, había liberado el modelo o1 cerrado y ya lo está vendiendo sólo a s, incluso a s, con paquetes de 20 a 200 dólares al mes.

7. ¿Cómo ha conseguido producir un modelo así a pesar de las restricciones de EE.UU.?

La empresa también ha establecido colaboraciones estratégicas para mejorar sus capacidades tecnológicas y su alcance en el mercado. Una de las colaboraciones notables fue con la empresa estadounidense de chips AMD. Según 'Forbes', DeepSeek utilizó las GPU (unidades de procesamiento gráfico) AMD Instinct y el software ROCM en fases clave del desarrollo del modelo, sobre todo para DeepSeek-V3.

MIT Technology Review informó de que Liang había adquirido importantes existencias de chips Nvidia A100, un tipo cuya exportación a China está actualmente prohibida, mucho antes de las sanciones impuestas por Estados Unidos a China. El medio de comunicación chino '36Kr' calcula que la empresa tiene más de 10.000 unidades en stock. Algunos dicen que esta cifra asciende a 50.000. Al darse cuenta de la importancia de estas existencias para el entrenamiento de la IA, Liang fundó DeepSeek y empezó a utilizarlas junto con chips de bajo consumo para mejorar sus modelos.

Pero lo importante aquí es que Liang ha encontrado la forma de construir modelos competentes con pocos recursos. Las restricciones estadounidenses a la exportación de chips obligaron a los desarrolladores de DeepSeek a crear algoritmos más inteligentes y eficientes energéticamente para compensar su falta de potencia de cálculo. Se cree que ChatGPT necesita 10.000 GPU de Nvidia para procesar los datos de entrenamiento. Los ingenieros de DeepSeek afirman haber conseguido resultados similares con sólo 2.000 GPU.

8. ¿Cuáles son las técnicas innovadoras de DeepSeek?

El éxito de DeepSeek puede atribuirse a varias innovaciones importantes.

Aprendizaje por refuerzo: a diferencia de los métodos tradicionales, que dependen en gran medida del ajuste fino supervisado, DeepSeek utiliza RL puro, según el tecnólogo Janakiram MSV. En el perfeccionamiento supervisado, el modelo suele entrenarse en un gran conjunto de datos antes del perfeccionamiento. El uso de la RL pura significa que un sistema de IA se entrena utilizando únicamente métodos de aprendizaje por refuerzo. Esto significa que el modelo aprende únicamente a través de mecanismos de recompensa y castigo, sin datos extraídos por humanos ni métodos de aprendizaje supervisado. Este enfoque es especialmente eficaz para mejorar las capacidades de razonamiento de DeepSeek-R1.

Arquitectura MoE: la arquitectura Mixture of Experts, o Mezcla de Expertos, es un sistema innovador de diferentes expertos en modelos de inteligencia artificial. Aquí, se seleccionan varios expertos como los más adecuados para la entrada del y sólo ellos trabajan. De este modo, se aumenta el rendimiento de los grandes modelos y se reduce el coste de procesamiento. Se puede pensar en ello como un equipo de expertos, cada uno especializado en un área diferente. Ante una tarea, sólo se recurre a los expertos pertinentes, lo que garantiza un uso eficiente de los recursos y la experiencia.

Atención latente multicabezal: este método permite a un modelo aprender las relaciones entre las representaciones latentes y las entradas utilizando diferentes cabezales de atención. Sirve para procesar la información de forma más flexible, potente y detallada. Se puede considerar como múltiples "cabezas de atención" que pueden centrarse en distintas partes de los datos de entrada, lo que permite al modelo comprender la información de forma más exhaustiva.

Destilación: DeepSeek utiliza técnicas de destilación para transferir los conocimientos y capacidades de modelos más grandes a otros más pequeños y eficientes. Esto es similar a cuando un profesor transfiere conocimientos a un alumno. Permite al alumno realizar tareas de similar competencia pero con menos experiencia o recursos. El proceso de destilación de DeepSeek permite que los modelos más pequeños hereden las capacidades avanzadas de razonamiento y procesamiento del lenguaje de sus homólogos más grandes, haciéndolos más versátiles y accesibles.

En resumen, al utilizar arquitecturas eficientes como RL y MoE, DeepSeek reduce significativamente los recursos computacionales necesarios para el entrenamiento y puede completarlo con menores costes. Por ejemplo, DeepSeek-V3 se entrenó por una fracción del coste de los modelos de Meta.

Alexandr Wang, consejero delegado de ScaleAI, que proporciona datos de entrenamiento a los modelos de IA de grandes empresas como OpenAI y Google,describió el producto de DeepSeek como "un modelo revolucionario" en un discurso pronunciado el jueves en el Foro Económico Mundial (FEM) de Davos (Suiza).

Ir a los atajos de accesibilidad
Compartir esta noticiaComentarios

Noticias relacionadas

Editores y autores ses demandan a Meta por obras protegidas por derechos de autor utilizadas en el entrenamiento de IA

Los legisladores examinarán la influencia de la IA en las finanzas y los derechos de autor

Esto es lo que se anunció en la Cumbre de Acción sobre la IA