LLM: grandes modelos de lenguaje y foundation models

Tech family

Los grandes modelos de lenguaje (en inglés Large Language Models, o LLM) son redes neuronales entrenadas sobre corpus textuales masivos para predecir la continuación más probable de una secuencia de palabras. Desde 2022, constituyen el motor principal de la IA generativa y el escenario de una competencia industrial sin precedentes entre OpenAI, Anthropic, Google DeepMind, Meta, Mistral AI, Alibaba, DeepSeek y una veintena de otros actores. Esta página sintetiza su arquitectura, los principales actores, los modelos de referencia en 2026 y las controversias que los rodean.

📰 Actualités récentes

Noticias recientes

Los grandes modelos de lenguaje (LLM) continúan transformando el panorama de la inteligencia artificial, estableciéndose como herramientas esenciales en diversos campos, desde la ciberseguridad hasta la medicina. Recientemente, DeepSeek ha presentado una actualización de su modelo R1, el DeepSeek-R1-0528, que refuerza sus capacidades de razonamiento, lógica y programación. Esta versión, publicada el 28 de mayo de 2025, se acerca al rendimiento de los modelos insignia de OpenAI y Google, mientras reduce la tasa de alucinaciones, un problema recurrente para los LLMs. Paralelamente, Tencent ha introducido Hunyuan-T1, un modelo de razonamiento que utiliza una arquitectura híbrida innovadora para competir con los líderes del mercado. Estos desarrollos destacan una tendencia creciente hacia la mejora de las capacidades de razonamiento de los LLMs, un elemento clave en su capacidad para integrarse en sistemas complejos y críticos.

En el ámbito de la ciberseguridad, los LLMs demuestran su potencial al facilitar la detección y análisis de amenazas. Un estudio de la Universidad de Nueva York destaca su capacidad para explotar grandes cantidades de datos textuales para anticipar y responder a ataques, transformando la ciberseguridad en un sector más reactivo y proactivo. Modelos como SecureBERT, especializados en ciberseguridad, muestran resultados prometedores, aunque su refinamiento sigue siendo un desafío para las empresas. Esta evolución hacia LLMs especializados refleja una tendencia hacia la diversificación de las aplicaciones de los modelos de lenguaje, respondiendo a necesidades específicas mientras mejoran su precisión y fiabilidad.

El entusiasmo por los LLMs de código abierto también continúa, con iniciativas como las del Allen Institute for AI, que ha lanzado Tülu 3 405B, un modelo de código abierto basado en Llama 3.1. Este modelo se distingue por el uso de aprendizaje por refuerzo con recompensas verificables, mejorando su rendimiento en tareas complejas. Paralelamente, Mistral AI ha lanzado Mistral Small 3, un modelo optimizado para la latencia, ofreciendo una alternativa de código abierto a los modelos propietarios. Estas iniciativas reflejan un deseo de democratizar el acceso a los LLMs mientras se reducen los costos de inferencia, un desafío crucial para ampliar su adopción, especialmente en entornos donde los recursos son limitados.

A medida que los grandes modelos de lenguaje continúan desarrollándose, persisten desafíos, especialmente en términos de costo de inferencia e impacto ambiental. Microsoft ha presentado recientemente BitNet.cpp, un marco de código abierto que optimiza la inferencia de LLMs cuantificados a 1 bit, reduciendo así su huella de carbono. Esta innovación subraya la importancia de la sostenibilidad en la evolución de los LLMs, a medida que el tamaño y la complejidad de los modelos siguen aumentando. Además, la integración de los LLMs en campos como el diagnóstico médico aún debe perfeccionarse, el estudio realizado por UVA Health indica que si bien los LLMs pueden superar a los médicos en ciertas tareas, su integración aún no ha mejorado significativamente el rendimiento diagnóstico global.

Guía completa

Arquitectura: del transformer a los modelos modernos

La arquitectura transformer, de la que derivan todos los LLM modernos, se basa en dos componentes fundamentales. El primero es el mecanismo de auto-attention, que permite al modelo calcular, para cada posición del texto, una combinación ponderada de las representaciones de las demás posiciones. Esta operación es intrínsecamente paralelizable, lo que explica por qué los transformers han sustituido a las arquitecturas recurrentes (RNN, LSTM) que dominaban el NLP hasta 2017. El segundo componente es el apilamiento de decenas de capas idénticas de transformer (típicamente entre 32 y 96 en los modelos más avanzados), cada una aportando un refinamiento adicional a la representación.

Los LLM contemporáneos presentan varias variantes arquitectónicas:

los modelos dense, donde todos los parámetros se activan en cada inferencia (GPT-4 histórico, Claude, Llama 3.1 405B);
los modelos Mixture of Experts (MoE), en los que solo algunos subredes expertos se activan según el token procesado, lo que reduce el coste de inferencia a igualdad de parámetros (Mixtral, DeepSeek-V3, GPT-4o presunto);
los modelos multimodales nativos, que ingieren y producen texto, imágenes, audio y vídeo en un espacio de representación unificado (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
los modelos de razonamiento (reasoning models), que generan una cadena de pensamiento explícita antes de responder - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - a costa de una mayor latencia pero con una calidad superior en tareas de matemáticas, lógica y programación.

Los actores principales en 2026

OpenAI sigue siendo el líder percibido del mercado con ChatGPT, GPT-4o, GPT-4o mini y la familia de modelos de razonamiento o1/o3. La compañía, valorada en varios cientos de miles de millones de dólares en 2026, está financiada principalmente por Microsoft y SoftBank. Su estrategia comercial combina API (pago por token), producto para el gran público (ChatGPT Plus a 20 $/mes) y empresa (ChatGPT Enterprise, Azure OpenAI Service). OpenAI ha ampliado su alcance con OAI-SearchBot, su crawler de búsqueda, y SearchGPT.

Anthropic, fundada en 2021 por antiguos miembros de OpenAI, entre ellos Dario y Daniela Amodei, ha hecho de la seguridad su eje diferenciador. Su familia Claude (Haiku, Sonnet, Opus) es especialmente apreciada para redacción, código y razonamiento de contexto largo. Anthropic está financiada por Amazon, Google y SoftBank. En mayo de 2026, Anthropic confirmó el alquiler de una fracción de la capacidad de Colossus 1 de xAI por aproximadamente 1.250 millones de dólares al mes, ilustrando la concentración de recursos de cómputo.

Google DeepMind consolida desde 2023 sus actividades de IA bajo la marca Gemini. La familia Gemini (Nano, Flash, Pro, Ultra, y luego Gemini 2.0 Flash en diciembre de 2024) está integrada en el motor de búsqueda (AI Overviews) y en la suite Workspace. Google se beneficia de una ventaja estructural por su control de los datos de entrenamiento (Web, YouTube, Books) y de su infraestructura TPU.

Meta apostó por el weights open con la familia Llama (Llama 1 en febrero de 2023, Llama 2 en julio de 2023, Llama 3 en abril de 2024, Llama 3.1 405B en julio de 2024). Esta estrategia ha democratizado el acceso a los foundation models y alimentado un ecosistema de modelos derivados (Vicuna, Tulu, fine-tunes sectoriales). Sin embargo, Meta se negó en julio de 2025 a firmar el código de buenas prácticas GPAI europeo y suspendió temporalmente el lanzamiento de Llama 3 multimodal en Europa.

Mistral AI, fundada en París en abril de 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix, se ha consolidado como el campeón europeo. Su estrategia híbrida combina modelos abiertos (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) y modelos propietarios (Mistral Large 2, Pixtral Large). Mistral ha firmado el código de buenas prácticas GPAI y establecido alianzas estratégicas con NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini y SAP.

En China, Alibaba (familia Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) y sobre todo DeepSeek han alcanzado y luego desafiado a los laboratorios estadounidenses. DeepSeek-V3 sorprendió a la comunidad en enero de 2025 por su calidad con un coste de entrenamiento unas 30 veces inferior al de sus competidores occidentales. DeepSeek-R1, lanzado poco después y actualizado en junio de 2025 (R1-0528), provocó una caída bursátil temporal de NVIDIA al cuestionar la prima de las infraestructuras desmesuradas.

Otros actores juegan roles especializados: xAI (Grok, infraestructura Colossus), Cohere (modelos empresariales multilingües, Aya 23), AI2 (Tülu 3 405B, modelos completamente open), Aleph Alpha (Pharia-1-LLM alemán), Black Forest Labs (FLUX-1 para text-to-image), LightOn (Paradigm para empresas), Hugging Face (hub de modelos, SmolLM2), OpenEuroLLM (consorcio europeo open).

Modelos de referencia en 2026

El panorama de los LLM de vanguardia en 2026 se compone de una docena de familias, cada una con sus tamaños y variantes:

GPT-4o / GPT-4o mini (OpenAI): multimodal nativo, latencia reducida, ventana de contexto de 128k tokens. GPT-4o mini se ha convertido en la referencia económica para despliegues de alto volumen.
o1 / o3 (OpenAI): modelos de razonamiento con chain-of-thought interna, muy potentes en matemáticas competitivas (AIME, IMO) y programación (Codeforces).
Claude 3.5 Sonnet / Claude 3 Opus (Anthropic): ventana de 200k, excelentes en redacción larga y lectura de documentos.
Gemini 2.0 Flash / Gemini Ultra (Google DeepMind): multimodal nativo, integración con el ecosistema Google.
Llama 3.1 405B / Llama 3.3 (Meta): líder open source dense.
Mistral Large 2 / Pixtral Large (Mistral AI): europeos, open weights en algunas versiones.
DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek): open source chino, razonamiento, coste de entrenamiento espectacularmente bajo.
Qwen2.5 (Alibaba): líder open source multilingüe chino, ventana de 1M tokens.
NOVA (Amazon): familia propia de foundation models anunciada en diciembre de 2024.
Phi-3 / Phi-3.5 (Microsoft): modelos pequeños y eficientes para embebidos.
Hunyuan-T1 (Tencent): modelo de razonamiento chino compitiendo con el estado del arte.
Grok 3 (xAI): acceso en tiempo real a X, infraestructura masiva.

Entrenamiento y costes

El entrenamiento de un LLM de vanguardia moviliza recursos considerables. Para GPT-4, las estimaciones públicas hablan de un presupuesto del orden de 100 millones de dólares y varias decenas de miles de GPU H100 durante tres meses. Llama 3.1 405B requirió 16.000 H100 y unas 30 millones de horas GPU. Mistral Large 2 y Mixtral, en el otro extremo del espectro europeo, se entrenaron con presupuestos significativamente más modestos, demostrando que es posible alcanzar un rendimiento competitivo con un esfuerzo reducido gracias a un trabajo meticuloso sobre los datos.

Las scaling laws formalizadas por OpenAI y refinadas por DeepMind (Chinchilla, 2022) han dictado durante mucho tiempo la dinámica: la calidad de un modelo progresa de manera predecible con el producto del número de parámetros y la cantidad de datos de entrenamiento, siempre que ambos estén equilibrados. Esta ecuación fue cuestionada a finales de 2024: la inflación de los presupuestos ya no se traduce en mejoras espectaculares en los benchmarks abiertos, y la atención se ha desplazado hacia otras dimensiones - calidad de los datos, razonamiento post-entrenamiento, agentes, multimodalidad.

La infraestructura de cálculo se ha convertido en un asunto geopolítico de primer orden. NVIDIA, gracias a su casi exclusividad sobre las GPU H100/H200/B200, captura la mayor parte del valor. Los controles de exportación estadounidenses restringen las ventas a China, lo que ha llevado en particular a DeepSeek y Alibaba a optimizar sus entrenamientos para chips degradados (H800). xAI construyó en 2024 el data center Colossus en Memphis, integrando 100.000 H100 y luego 200.000 H100/H200, en menos de un año - un récord industrial.

Capacidades y límites

Los LLM modernos dominan una amplia gama de tareas: redacción, resumen, traducción, generación de código, diálogo, extracción de información, clasificación, procesamiento de documentos estructurados y no estructurados. Se han convertido en componentes estándar en numerosas aplicaciones: motores de búsqueda conversacionales, asistentes de codificación (Copilot, Cursor), agentes legales y médicos, sistemas de soporte al cliente, herramientas de productividad Office y Workspace.

Sus límites también están bien documentados. Los LLM alucinan: producen contenido plausible pero factualmente falso, especialmente sobre temas de nicho, cifras precisas y referencias bibliográficas. Carecen de robustez frente a ataques adversariales (prompt injection, jailbreak), como demostró el estudio de la EPFL en diciembre de 2024 sobre los límites de los LLM ante ataques adaptativos. Pueden ser manipulados para influir en las opiniones de los usuarios (estudio EPFL de abril de 2024). Consumen energía y agua de manera significativa, un tema cada vez más vigilado por reguladores y accionistas. Sus sesgos reflejan los de los corpus de entrenamiento, principalmente anglófonos y del noroeste global.

Open source vs propietario

La división entre LLM abiertos y cerrados estructura el debate desde 2023. Los defensores de los modelos abiertos - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - invocan la soberanía tecnológica, la posibilidad de auditoría independiente, la difusión académica y la resiliencia industrial. Sus opositores - Anthropic, OpenAI en ciertos aspectos - señalan los riesgos de proliferación de usos maliciosos (bioterrorismo, desinformación a gran escala, fraude) y la imposibilidad de retirar un modelo una vez publicado.

El AI Act resuelve parcialmente la cuestión concediendo exenciones parciales a los modelos cuyos parámetros, arquitectura e información de uso son publicados. Estas exenciones no se aplican a los modelos de riesgo sistémico (10²⁵ FLOPS de entrenamiento). En 2026, el ecosistema open source está dominado por Llama, Mistral, DeepSeek y Qwen, que cubren la mayor parte de los casos de uso empresariales y académicos sin depender de la API de un proveedor único.

Modelos especializados y verticales

Más allá de los modelos generalistas, el ecosistema se diversifica hacia modelos verticales. En el ámbito médico: H-optimus-0 de Bioptimus para diagnóstico médico asistido, Pharia-1-LLM de Aleph Alpha en alemán, fine-tunes específicos para radiología y oncología. En el jurídico: asistentes Lefebvre Dalloz-Barreau de Paris, aplicaciones Talan-Mutuelle Générale. En el código: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. En finanzas: modelos internos de BNP Paribas, Crédit Agricole, JPMorgan. El movimiento de los pequeños modelos eficientes (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - apunta a despliegues embebidos (teléfonos, coches, IoT) con una calidad aceptable y un coste de inferencia muy reducido.

El año 2025 vio emerger los agentes IA como nuevo paradigma de uso de los LLM. En lugar de responder a una consulta aislada, el agente encadena acciones (llamadas a herramientas, consultas web, escritura de archivos, ejecución de código) para resolver una tarea compleja. Gemini 2.0 Flash fue presentado en diciembre de 2024 como el modelo que abre la vía a esta nueva familia de productos. AI Decision Matrix de AI Builders proporciona un marco de evaluación comparativa para responsables IT frente a la proliferación de soluciones.

Retos 2026 y más allá

Varias dinámicas a seguir en los próximos 18 meses:

la conformidad GPAI respecto al AI Act, ahora aplicable desde agosto de 2025;
la economía de la inferencia, que domina en volumen sobre la economía del entrenamiento, con un desplazamiento hacia arquitecturas MoE y cuantificación (BitNet, vLLM, llm-optimizer);
la articulación con el derecho de autor, especialmente tras el rechazo de la ley Darcos en Francia y la jurisprudencia en curso sobre Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
la carrera por los modelos de razonamiento, donde compiten OpenAI o3, DeepSeek-R1, Gemini Thinking y Hunyuan-T1;
la convergencia multimodal, con modelos nativos capaces de procesar texto, imagen, vídeo y audio en un espacio unificado;
la emergencia de los agentes y la cuestión asociada de la fiabilidad (tasa de éxito en tareas largas), la seguridad (control de las acciones realizadas) y el modelo de negocio;
la soberanía europea, que se encarna en Mistral, OpenEuroLLM, LightOn, Aleph Alpha y el esfuerzo de desindexación del cálculo de inferencia con OVHcloud y las nuevas GPUs NVIDIA Tensor Core.

La evolución de los LLM ya no se reduce a una carrera por los parámetros. Los actores ganadores combinarán calidad de datos, post-entrenamiento por refuerzo, infraestructura de inferencia controlada, estrategia de licencias coherente con su mercado objetivo y cumplimiento normativo. Es ya un tema industrial, geopolítico y jurídico tanto como científico.

Preguntas frecuentes

¿Qué es un LLM (gran modelo de lenguaje)?

Un LLM es una red neuronal de tamaño muy grande - de varios miles de millones hasta varios cientos de miles de millones de parámetros - basada en la arquitectura transformer. Se entrena para predecir la siguiente unidad (token) de un texto a partir de cientos de miles de millones hasta varios billones de tokens. De esta tarea simple emergen capacidades complejas: diálogo, razonamiento, generación de código, traducción.

¿Cuál es la diferencia entre LLM y foundation model?

Un foundation model es un modelo de IA reutilizable como base para muchas aplicaciones especializadas mediante fine-tuning, RAG o prompt engineering. Un LLM es un tipo de foundation model especializado en lenguaje. Pero el término también se extiende a modelos multimodales (imagen, audio, vídeo) que comparten la misma lógica arquitectónica y económica.

¿Cuáles son los LLM más potentes en 2026?

En los benchmarks públicos: GPT-4o y o1/o3 (OpenAI), Claude 3.5 Sonnet y Claude 3 Opus (Anthropic), Gemini 2.0 Flash y Gemini Ultra (Google), Llama 3.1 405B (Meta), Mistral Large 2 (Mistral AI), DeepSeek-V3 y DeepSeek-R1 (DeepSeek), Qwen2.5 (Alibaba), Hunyuan-T1 (Tencent). Ninguno domina en todas las dimensiones; la elección depende del caso de uso (razonamiento, latencia, coste, idiomas, multimodalidad).

¿Cuánto cuesta entrenar un LLM de vanguardia?

Para modelos dense de más de 70 mil millones de parámetros, los presupuestos van de 5 a 100 millones de dólares según el tamaño y la eficiencia. GPT-4 se estima en ~100 M$, Llama 3.1 405B en ~50 M$, DeepSeek-V3 en ~5 M$ (récord de eficiencia). Estas cifras solo cubren el entrenamiento final; incluyendo la experimentación previa y el post-entrenamiento, los costes completos son de 3 a 10 veces mayores.

¿Qué es un modelo Mixture of Experts (MoE)?

Es una arquitectura donde la red se divide en varios subredes expertas especializadas, y un router selecciona algunos expertos a activar para cada token. Esto permite aumentar el número total de parámetros sin aumentar proporcionalmente el coste de inferencia. Mixtral 8x7B, DeepSeek-V3 y GPT-4o (presumiblemente) utilizan esta arquitectura.

¿Por qué DeepSeek causó tanto impacto en enero de 2025?

DeepSeek-V3 y luego DeepSeek-R1 demostraron que era posible alcanzar el nivel de los mejores modelos propietarios estadounidenses con un presupuesto de entrenamiento unas 30 veces inferior y en open source. Esto cuestionó la ventaja de las infraestructuras masivas y provocó una caída bursátil temporal de NVIDIA, ilustrando la fragilidad de la valoración actual del ecosistema IA.

¿Cuáles son los LLM europeos?

Mistral AI (Mistral Large 2, Mixtral, Codestral, Ministral, Pixtral) es el líder europeo. Aleph Alpha desarrolla Pharia-1-LLM en alemán. LightOn ofrece Paradigm para empresas. Black Forest Labs edita FLUX-1 para text-to-image. OpenEuroLLM es un consorcio académico europeo. El proyecto busca constituir una alternativa soberana a los modelos estadounidenses y chinos.

¿Open source o propietario: qué elegir?

Depende del caso de uso. El propietario (OpenAI, Anthropic, Gemini) ofrece la simplicidad de una API gestionada y acceso a los modelos más avanzados. El open source (Llama, Mistral, DeepSeek) permite el alojamiento on-premise, la soberanía de los datos, la auditoría del modelo y evitar el lock-in del proveedor - a cambio de un coste de infraestructura y expertise interna. Para usos regulados (salud, finanzas, defensa), el open source alojado suele convertirse en la norma.

¿Qué es un modelo de razonamiento?

Un modelo de razonamiento produce explícitamente una chain-of-thought antes de responder, lo que mejora drásticamente su rendimiento en matemáticas competitivas, lógica y programación. OpenAI o1/o3, DeepSeek-R1, Tencent Hunyuan-T1 y Gemini Thinking son los principales representantes. El coste de inferencia aumenta (mayor latencia), pero también la calidad.

¿Cuáles son los principales riesgos asociados a los LLM?

Alucinaciones (generación de contenido factualmente falso), prompt injection y jailbreak (elusión de salvaguardas), sesgos (reflejo del corpus de entrenamiento), manipulación de la opinión (estudio EPFL 2024), consumo energético e hídrico, fuga de datos privados, dependencia industrial de proveedores de modelos y GPU. El AI Act responde a varios de estos riesgos para los modelos de riesgo sistémico.

¿Cómo se evalúa un LLM?

Por benchmarks públicos (MMLU, GPQA, MATH, HumanEval, SWE-Bench, LiveCodeBench, MT-Bench), por evaluaciones humanas a ciegas (Chatbot Arena), y por pruebas internas adaptadas al caso de uso. Los benchmarks abiertos se saturan rápidamente: un modelo que supera el 90 % en MMLU ya no se distingue de otros. La evaluación por tarea real (redacción, producción de código, razonamiento largo) sigue siendo indispensable.

¿Cuál es el próximo paso para los LLM?

Los agentes IA - sistemas capaces de encadenar acciones complejas de forma autónoma - son el gran reto para 2025-2027. Más allá, la industria trabaja en la fiabilidad a largo plazo (alineamiento, seguridad), la eficiencia de inferencia, la convergencia multimodal nativa, el aprendizaje continuo y la soberanía infraestructural. La cuestión de los datos de entrenamiento sigue siendo estructurante: los corpus web públicos empiezan a saturarse, abriendo paso a datos sintéticos y a colaboraciones editoriales.

sobre el mismo tema

Articles récents

4 articles liés à ce sujet

Alibaba presenta sus cockpits inteligentes, gafas IA y asociaciones estratégicas en el WAIC 2025

En la World Artificial Intelligence Conference 2025, Alibaba Cloud presentó varias aplicaciones de sus modelos de lenguaje IA, incluyendo un cockpit i...

Mercado de IA Producto comercial

1 de ago. de 2025 Leer más →

DeepSeek-R1-0528: la start-up china sigue compitiendo con los gigantes estadounidenses con una actualización de su modelo estrella

La start-up china DeepSeek ha actualizado su modelo R1, mejorando su rendimiento en razonamiento, lógica, matemáticas y programación. Esta actualizaci...

Herramienta para el Datascientist Producto comercial

2 de jun. de 2025 Leer más →

Cuando la IA se convierte en escudo: lo que los LLMs cambian concretamente en la ciberseguridad

Los modelos de lenguaje (LLMs) están cada vez más presentes en ciberseguridad, permitiendo una detección más rápida de vulnerabilidades y ataques. Sin...

Seguridad

15 de may. de 2025 Leer más →

Tencent lanza el modelo de razonamiento Hunyuan-T1, rivalizando con el estado del arte

Justo un mes después de haber introducido su modelo de razonamiento TurboS, Tencent revela Hunyuan-T1, un competidor serio frente a DeepSeek R1.

Mercado de IA

19 de abr. de 2025 Leer más →

Statistiques

Articles totaux 4

Contenu mis à jour hace 5 días

Por categoría

Por sector