Arquitectura: del transformer a los modelos modernos
La arquitectura transformer, de la que derivan todos los LLM modernos, se basa en dos componentes fundamentales. El primero es el mecanismo de auto-attention, que permite al modelo calcular, para cada posición del texto, una combinación ponderada de las representaciones de las demás posiciones. Esta operación es intrínsecamente paralelizable, lo que explica por qué los transformers han sustituido a las arquitecturas recurrentes (RNN, LSTM) que dominaban el NLP hasta 2017. El segundo componente es el apilamiento de decenas de capas idénticas de transformer (típicamente entre 32 y 96 en los modelos más avanzados), cada una aportando un refinamiento adicional a la representación.
Los LLM contemporáneos presentan varias variantes arquitectónicas:
- los modelos dense, donde todos los parámetros se activan en cada inferencia (GPT-4 histórico, Claude, Llama 3.1 405B);
- los modelos Mixture of Experts (MoE), en los que solo algunos subredes expertos se activan según el token procesado, lo que reduce el coste de inferencia a igualdad de parámetros (Mixtral, DeepSeek-V3, GPT-4o presunto);
- los modelos multimodales nativos, que ingieren y producen texto, imágenes, audio y vídeo en un espacio de representación unificado (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
- los modelos de razonamiento (reasoning models), que generan una cadena de pensamiento explícita antes de responder - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - a costa de una mayor latencia pero con una calidad superior en tareas de matemáticas, lógica y programación.
Los actores principales en 2026
OpenAI sigue siendo el líder percibido del mercado con ChatGPT, GPT-4o, GPT-4o mini y la familia de modelos de razonamiento o1/o3. La compañía, valorada en varios cientos de miles de millones de dólares en 2026, está financiada principalmente por Microsoft y SoftBank. Su estrategia comercial combina API (pago por token), producto para el gran público (ChatGPT Plus a 20 $/mes) y empresa (ChatGPT Enterprise, Azure OpenAI Service). OpenAI ha ampliado su alcance con OAI-SearchBot, su crawler de búsqueda, y SearchGPT.
Anthropic, fundada en 2021 por antiguos miembros de OpenAI, entre ellos Dario y Daniela Amodei, ha hecho de la seguridad su eje diferenciador. Su familia Claude (Haiku, Sonnet, Opus) es especialmente apreciada para redacción, código y razonamiento de contexto largo. Anthropic está financiada por Amazon, Google y SoftBank. En mayo de 2026, Anthropic confirmó el alquiler de una fracción de la capacidad de Colossus 1 de xAI por aproximadamente 1.250 millones de dólares al mes, ilustrando la concentración de recursos de cómputo.
Google DeepMind consolida desde 2023 sus actividades de IA bajo la marca Gemini. La familia Gemini (Nano, Flash, Pro, Ultra, y luego Gemini 2.0 Flash en diciembre de 2024) está integrada en el motor de búsqueda (AI Overviews) y en la suite Workspace. Google se beneficia de una ventaja estructural por su control de los datos de entrenamiento (Web, YouTube, Books) y de su infraestructura TPU.
Meta apostó por el weights open con la familia Llama (Llama 1 en febrero de 2023, Llama 2 en julio de 2023, Llama 3 en abril de 2024, Llama 3.1 405B en julio de 2024). Esta estrategia ha democratizado el acceso a los foundation models y alimentado un ecosistema de modelos derivados (Vicuna, Tulu, fine-tunes sectoriales). Sin embargo, Meta se negó en julio de 2025 a firmar el código de buenas prácticas GPAI europeo y suspendió temporalmente el lanzamiento de Llama 3 multimodal en Europa.
Mistral AI, fundada en París en abril de 2023 por Arthur Mensch, Guillaume Lample y Timothée Lacroix, se ha consolidado como el campeón europeo. Su estrategia híbrida combina modelos abiertos (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) y modelos propietarios (Mistral Large 2, Pixtral Large). Mistral ha firmado el código de buenas prácticas GPAI y establecido alianzas estratégicas con NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini y SAP.
En China, Alibaba (familia Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) y sobre todo DeepSeek han alcanzado y luego desafiado a los laboratorios estadounidenses. DeepSeek-V3 sorprendió a la comunidad en enero de 2025 por su calidad con un coste de entrenamiento unas 30 veces inferior al de sus competidores occidentales. DeepSeek-R1, lanzado poco después y actualizado en junio de 2025 (R1-0528), provocó una caída bursátil temporal de NVIDIA al cuestionar la prima de las infraestructuras desmesuradas.
Otros actores juegan roles especializados: xAI (Grok, infraestructura Colossus), Cohere (modelos empresariales multilingües, Aya 23), AI2 (Tülu 3 405B, modelos completamente open), Aleph Alpha (Pharia-1-LLM alemán), Black Forest Labs (FLUX-1 para text-to-image), LightOn (Paradigm para empresas), Hugging Face (hub de modelos, SmolLM2), OpenEuroLLM (consorcio europeo open).
Modelos de referencia en 2026
El panorama de los LLM de vanguardia en 2026 se compone de una docena de familias, cada una con sus tamaños y variantes:
- GPT-4o / GPT-4o mini (OpenAI): multimodal nativo, latencia reducida, ventana de contexto de 128k tokens. GPT-4o mini se ha convertido en la referencia económica para despliegues de alto volumen.
- o1 / o3 (OpenAI): modelos de razonamiento con chain-of-thought interna, muy potentes en matemáticas competitivas (AIME, IMO) y programación (Codeforces).
- Claude 3.5 Sonnet / Claude 3 Opus (Anthropic): ventana de 200k, excelentes en redacción larga y lectura de documentos.
- Gemini 2.0 Flash / Gemini Ultra (Google DeepMind): multimodal nativo, integración con el ecosistema Google.
- Llama 3.1 405B / Llama 3.3 (Meta): líder open source dense.
- Mistral Large 2 / Pixtral Large (Mistral AI): europeos, open weights en algunas versiones.
- DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek): open source chino, razonamiento, coste de entrenamiento espectacularmente bajo.
- Qwen2.5 (Alibaba): líder open source multilingüe chino, ventana de 1M tokens.
- NOVA (Amazon): familia propia de foundation models anunciada en diciembre de 2024.
- Phi-3 / Phi-3.5 (Microsoft): modelos pequeños y eficientes para embebidos.
- Hunyuan-T1 (Tencent): modelo de razonamiento chino compitiendo con el estado del arte.
- Grok 3 (xAI): acceso en tiempo real a X, infraestructura masiva.
Entrenamiento y costes
El entrenamiento de un LLM de vanguardia moviliza recursos considerables. Para GPT-4, las estimaciones públicas hablan de un presupuesto del orden de 100 millones de dólares y varias decenas de miles de GPU H100 durante tres meses. Llama 3.1 405B requirió 16.000 H100 y unas 30 millones de horas GPU. Mistral Large 2 y Mixtral, en el otro extremo del espectro europeo, se entrenaron con presupuestos significativamente más modestos, demostrando que es posible alcanzar un rendimiento competitivo con un esfuerzo reducido gracias a un trabajo meticuloso sobre los datos.
Las scaling laws formalizadas por OpenAI y refinadas por DeepMind (Chinchilla, 2022) han dictado durante mucho tiempo la dinámica: la calidad de un modelo progresa de manera predecible con el producto del número de parámetros y la cantidad de datos de entrenamiento, siempre que ambos estén equilibrados. Esta ecuación fue cuestionada a finales de 2024: la inflación de los presupuestos ya no se traduce en mejoras espectaculares en los benchmarks abiertos, y la atención se ha desplazado hacia otras dimensiones - calidad de los datos, razonamiento post-entrenamiento, agentes, multimodalidad.
La infraestructura de cálculo se ha convertido en un asunto geopolítico de primer orden. NVIDIA, gracias a su casi exclusividad sobre las GPU H100/H200/B200, captura la mayor parte del valor. Los controles de exportación estadounidenses restringen las ventas a China, lo que ha llevado en particular a DeepSeek y Alibaba a optimizar sus entrenamientos para chips degradados (H800). xAI construyó en 2024 el data center Colossus en Memphis, integrando 100.000 H100 y luego 200.000 H100/H200, en menos de un año - un récord industrial.
Capacidades y límites
Los LLM modernos dominan una amplia gama de tareas: redacción, resumen, traducción, generación de código, diálogo, extracción de información, clasificación, procesamiento de documentos estructurados y no estructurados. Se han convertido en componentes estándar en numerosas aplicaciones: motores de búsqueda conversacionales, asistentes de codificación (Copilot, Cursor), agentes legales y médicos, sistemas de soporte al cliente, herramientas de productividad Office y Workspace.
Sus límites también están bien documentados. Los LLM alucinan: producen contenido plausible pero factualmente falso, especialmente sobre temas de nicho, cifras precisas y referencias bibliográficas. Carecen de robustez frente a ataques adversariales (prompt injection, jailbreak), como demostró el estudio de la EPFL en diciembre de 2024 sobre los límites de los LLM ante ataques adaptativos. Pueden ser manipulados para influir en las opiniones de los usuarios (estudio EPFL de abril de 2024). Consumen energía y agua de manera significativa, un tema cada vez más vigilado por reguladores y accionistas. Sus sesgos reflejan los de los corpus de entrenamiento, principalmente anglófonos y del noroeste global.
Open source vs propietario
La división entre LLM abiertos y cerrados estructura el debate desde 2023. Los defensores de los modelos abiertos - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - invocan la soberanía tecnológica, la posibilidad de auditoría independiente, la difusión académica y la resiliencia industrial. Sus opositores - Anthropic, OpenAI en ciertos aspectos - señalan los riesgos de proliferación de usos maliciosos (bioterrorismo, desinformación a gran escala, fraude) y la imposibilidad de retirar un modelo una vez publicado.
El AI Act resuelve parcialmente la cuestión concediendo exenciones parciales a los modelos cuyos parámetros, arquitectura e información de uso son publicados. Estas exenciones no se aplican a los modelos de riesgo sistémico (10²⁵ FLOPS de entrenamiento). En 2026, el ecosistema open source está dominado por Llama, Mistral, DeepSeek y Qwen, que cubren la mayor parte de los casos de uso empresariales y académicos sin depender de la API de un proveedor único.
Modelos especializados y verticales
Más allá de los modelos generalistas, el ecosistema se diversifica hacia modelos verticales. En el ámbito médico: H-optimus-0 de Bioptimus para diagnóstico médico asistido, Pharia-1-LLM de Aleph Alpha en alemán, fine-tunes específicos para radiología y oncología. En el jurídico: asistentes Lefebvre Dalloz-Barreau de Paris, aplicaciones Talan-Mutuelle Générale. En el código: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. En finanzas: modelos internos de BNP Paribas, Crédit Agricole, JPMorgan. El movimiento de los pequeños modelos eficientes (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - apunta a despliegues embebidos (teléfonos, coches, IoT) con una calidad aceptable y un coste de inferencia muy reducido.
El año 2025 vio emerger los agentes IA como nuevo paradigma de uso de los LLM. En lugar de responder a una consulta aislada, el agente encadena acciones (llamadas a herramientas, consultas web, escritura de archivos, ejecución de código) para resolver una tarea compleja. Gemini 2.0 Flash fue presentado en diciembre de 2024 como el modelo que abre la vía a esta nueva familia de productos. AI Decision Matrix de AI Builders proporciona un marco de evaluación comparativa para responsables IT frente a la proliferación de soluciones.
Retos 2026 y más allá
Varias dinámicas a seguir en los próximos 18 meses:
- la conformidad GPAI respecto al AI Act, ahora aplicable desde agosto de 2025;
- la economía de la inferencia, que domina en volumen sobre la economía del entrenamiento, con un desplazamiento hacia arquitecturas MoE y cuantificación (BitNet, vLLM, llm-optimizer);
- la articulación con el derecho de autor, especialmente tras el rechazo de la ley Darcos en Francia y la jurisprudencia en curso sobre Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
- la carrera por los modelos de razonamiento, donde compiten OpenAI o3, DeepSeek-R1, Gemini Thinking y Hunyuan-T1;
- la convergencia multimodal, con modelos nativos capaces de procesar texto, imagen, vídeo y audio en un espacio unificado;
- la emergencia de los agentes y la cuestión asociada de la fiabilidad (tasa de éxito en tareas largas), la seguridad (control de las acciones realizadas) y el modelo de negocio;
- la soberanía europea, que se encarna en Mistral, OpenEuroLLM, LightOn, Aleph Alpha y el esfuerzo de desindexación del cálculo de inferencia con OVHcloud y las nuevas GPUs NVIDIA Tensor Core.
La evolución de los LLM ya no se reduce a una carrera por los parámetros. Los actores ganadores combinarán calidad de datos, post-entrenamiento por refuerzo, infraestructura de inferencia controlada, estrategia de licencias coherente con su mercado objetivo y cumplimiento normativo. Es ya un tema industrial, geopolítico y jurídico tanto como científico.