LLM : 大型语言模型与foundation models

Tech family

大型语言模型（英文为 Large Language Models，简称 LLM）是一类通过在海量文本语料上训练的神经网络，用于预测词语序列中最有可能出现的下一个词。自2022年以来，它们已成为生成式IA的核心引擎，并引发了OpenAI、Anthropic、Google DeepMind、Meta、Mistral AI、Alibaba、DeepSeek等二十多家企业之间前所未有的产业竞争。本文对其架构、主要参与者、2026年标杆模型及相关争议进行了梳理。

📰 Actualités récentes

完整指南

架构：从transformer到现代模型

transformer架构是所有现代LLM的基础，核心由两大模块组成。首先是自注意力机制，使模型能够针对文本中的每个位置，计算其他所有位置表示的加权组合。这一操作天然适合并行处理，因此transformer自2017年起取代了曾经主导NLP领域的循环神经网络（RNN、LSTM）。第二个核心是堆叠数十层相同的transformer层（顶尖模型通常在32至96层之间），每一层都进一步优化了表达能力。

当代LLM在架构上分为多种变体：

稠密模型，即每次推理时所有参数均被激活（如GPT-4历史版本、Claude、Llama 3.1 405B）；
Mixture of Experts（MoE）模型，仅根据当前token激活部分专家子网络，在参数量相同的情况下大幅降低推理成本（Mixtral、DeepSeek-V3、推测中的GPT-4o）；
原生多模态模型，可在统一表达空间内处理和生成文本、图片、音频与视频（Gemini、GPT-4o、Pixtral Large、Claude 3.5 Sonnet）；
reasoning models（推理模型），在回答前会生成显式的chain-of-thought--如DeepSeek-R1、OpenAI o1/o3、Tencent Hunyuan-T1、Gemini Thinking--虽然推理延迟更高，但在数学、逻辑和编程等任务上表现尤为突出。

2026年主要玩家

OpenAI凭借ChatGPT、GPT-4o、GPT-4o mini以及o1/o3推理模型家族，依然被视为市场领导者。到2026年，公司估值已达数千亿美元，主要由Microsoft和SoftBank投资。其商业策略涵盖API（按token计费）、面向大众的ChatGPT Plus（每月20美元）以及企业级产品（ChatGPT Enterprise、Azure OpenAI Service）。OpenAI还拓展了业务边界，推出了OAI-SearchBot爬虫和SearchGPT搜索产品。

Anthropic由OpenAI前成员Dario和Daniela Amodei等于2021年创立，以安全为核心差异点。Claude家族（Haiku、Sonnet、Opus）因长文本写作、代码生成和长上下文推理受到青睐。Anthropic获得Amazon、Google和SoftBank投资。2026年5月，Anthropic确认以每月约12.5亿美元的价格租用xAI的Colossus 1算力，彰显算力资源的高度集中。

Google DeepMind自2023年起整合AI业务于Gemini品牌。Gemini家族（Nano、Flash、Pro、Ultra，以及2024年12月发布的Gemini 2.0 Flash）已深度集成至搜索引擎（AI Overviews）和Workspace办公套件。Google凭借对训练数据（Web、YouTube、Books）和TPU基础设施的掌控，拥有结构性优势。

Meta则以weights open战略推动Llama系列（Llama 1于2023年2月、Llama 2于2023年7月、Llama 3于2024年4月、Llama 3.1 405B于2024年7月发布）。此举推动了foundation models的普及，培育出大量衍生生态（Vicuna、Tulu、行业fine-tunes）。然而，Meta于2025年7月拒绝签署欧盟GPAI行为准则，并暂缓Llama 3多模态版本在欧洲的发布。

Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix于2023年4月在巴黎创立，迅速成为欧洲AI新秀。其混合战略结合了开放模型（Mistral 7B、Mixtral 8x7B、Codestral Mamba、Mathstral、Ministral 3B/8B）与专有模型（Mistral Large 2、Pixtral Large）。Mistral签署了GPAI行为准则，并与NVIDIA（Mistral NeMo 12B）、达索系统、Capgemini和SAP建立了战略合作。

在中国，Alibaba（Qwen家族）、Baidu（ERNIE 4.5、ERNIE X1）、Tencent（Hunyuan-T1），尤其是DeepSeek，快速追赶并挑战美国实验室。2025年1月，DeepSeek-V3以训练成本仅为西方竞品约1/30的优异表现震惊业界。紧随其后的DeepSeek-R1于2025年6月（R1-0528）更新，直接引发了NVIDIA股价短暂下跌，市场对超大规模基础设施的溢价产生质疑。

其他专注细分领域的企业还包括：xAI（Grok、Colossus基础设施）、Cohere（企业级多语种模型、Aya 23）、AI2（Tülu 3 405B、全开放模型）、Aleph Alpha（德语Pharia-1-LLM）、Black Forest Labs（FLUX-1用于text-to-image）、LightOn（企业级Paradigm）、Hugging Face（模型中心、SmolLM2）、OpenEuroLLM（欧洲开放联盟）。

2026年标杆模型

2026年顶级LLM格局由十余个家族构成，各自拥有不同规模和变体：

GPT-4o / GPT-4o mini（OpenAI）--原生多模态，低延迟，128k tokens上下文窗口。GPT-4o mini已成为大规模部署的经济标杆。
o1 / o3（OpenAI）--内置chain-of-thought的reasoning models，数理竞赛（AIME、IMO）和编程（Codeforces）领域表现极强。
Claude 3.5 Sonnet / Claude 3 Opus（Anthropic）--200k窗口，长文本写作和文档阅读表现优异。
Gemini 2.0 Flash / Gemini Ultra（Google DeepMind）--原生多模态，深度集成Google生态。
Llama 3.1 405B / Llama 3.3（Meta）--open source稠密模型领导者。
Mistral Large 2 / Pixtral Large（Mistral AI）--欧洲代表，部分版本开放权重。
DeepSeek-V3 / DeepSeek-R1-0528（DeepSeek）--中国open source，推理能力强，训练成本极低。
Qwen2.5（Alibaba）--中国多语种open source领导者，1M tokens窗口。
NOVA（Amazon）--自有foundation models，2024年12月发布。
Phi-3 / Phi-3.5（Microsoft）--高效小模型，适合嵌入式场景。
Hunyuan-T1（Tencent）--中国推理模型，媲美国际最强水平。
Grok 3（xAI）--实时接入X，超大基础设施支持。

训练与成本

顶级LLM的训练需要极其庞大的资源。以GPT-4为例，公开估算其训练预算约为1亿美元，动用数万块H100 GPU，历时三个月。Llama 3.1 405B使用了16,000块H100，累计约3,000万GPU小时。Mistral Large 2和Mixtral等欧洲模型则以显著更低的预算完成训练，证明通过数据精细处理也能实现竞争力性能。

OpenAI提出并经DeepMind（Chinchilla, 2022）完善的scaling laws长期主导行业节奏：只要参数量与训练数据量均衡增长，模型质量可按规律提升。但2024年底，这一等式受到挑战：预算持续膨胀却难以带来benchmark上的巨大提升，行业关注点正转向数据质量、后训练推理、智能体和多模态等新维度。

算力基础设施已成为重大战略议题。NVIDIA凭借对H100/H200/B200 GPU的垄断地位，掌控了大部分价值链。美国出口管制限制了对中国的高端芯片销售，促使DeepSeek和Alibaba针对降级芯片（H800）优化训练。xAI于2024年在孟菲斯建成Colossus数据中心，先后部署10万和20万块H100/H200 GPU，创下行业新纪录。

能力与局限

现代LLM已能胜任多种任务：写作、摘要、翻译、代码生成、对话、信息抽取、分类、结构化与非结构化文档处理。它们已成为众多应用的标准组件--如对话式搜索引擎、编程助手（Copilot、Cursor）、法律和医疗智能体、客户支持系统、Office及Workspace生产力工具等。

其局限性同样有充分记录。LLM会出现hallucination--生成内容看似合理实则错误，尤其在小众领域、精确数字和文献引用方面。面对对抗性攻击（prompt injection、jailbreak）时，鲁棒性不足。EPFL于2024年12月发布的研究揭示了LLM在适应性攻击下的极限。2024年4月EPFL的另一项研究表明，LLM可被操控以影响用户观点。此外，LLM的能耗和耗水量巨大，正受到监管机构和股东的日益关注。其偏见也反映了训练语料以英语和欧美为主的现状。

Open source与专有模型

自2023年以来，开放与封闭LLM的分歧一直主导行业讨论。支持开放模型的Meta、Mistral、Hugging Face、AI2、DeepSeek、La Quadrature du Net等，强调技术自主、可独立审计、学术传播和产业韧性。反对者如Anthropic、OpenAI（部分产品）则警示模型一旦发布后难以撤回，且易被滥用于生物恐怖、虚假信息传播和欺诈等。

AI Act对此作出部分裁定：只要模型参数、架构及使用信息公开，即可获得部分豁免。但对于系统性风险模型（训练达到10²⁵ FLOPS）则不适用。2026年，open source生态由Llama、Mistral、DeepSeek和Qwen主导，已能覆盖大部分企业与学术需求，无需依赖单一API供应商。

垂直与专用模型

除通用模型外，生态系统正向垂直细分领域扩展。在医疗领域，有Bioptimus的H-optimus-0用于辅助诊断，Aleph Alpha的德语Pharia-1-LLM，以及针对放射学、肿瘤学的专用fine-tunes。法律领域有Lefebvre Dalloz-巴黎律师协会助手、Talan-Mutuelle Générale应用。代码领域有Codestral（Mistral）、Code Llama（Meta）、DeepSeek-Coder。金融领域则有BNP Paribas、Crédit Agricole、JPMorgan等自研模型。小而高效模型（SLM，Small Language Models）如Phi-3、Mistral Ministral、SmolLM2、Gemma 2 2B，专为嵌入式场景（手机、汽车、IoT）设计，以极低推理成本实现可接受的质量。

2025年，AI智能体作为LLM新范式快速崛起。智能体不再仅仅回答单一请求，而是能串联多步操作（调用工具、访问Web、写入文件、执行代码）完成复杂任务。Gemini 2.0 Flash于2024年12月发布，被视为引领这一新产品家族的模型。AI Builders的AI Decision Matrix为IT负责人评估众多解决方案提供了对比框架。

2026年及未来展望

未来18个月需关注多项关键趋势：

GPAI合规性，AI Act自2025年8月起正式生效；
推理经济，其体量已超越训练经济，MoE架构与量化（BitNet、vLLM、llm-optimizer）成为主流；
与著作权法的衔接，尤其是在法国Darcos法案搁置及Meta-Llama、NYT-OpenAI、Getty-Stable Diffusion相关判例后；
推理模型竞赛，OpenAI o3、DeepSeek-R1、Gemini Thinking、Hunyuan-T1激烈角逐；
多模态收敛，原生模型能在统一空间处理文本、图片、视频和音频；
智能体崛起，并带来可靠性（长任务成功率）、安全性（行动可控）及商业模式等新议题；
欧洲自主权，集中体现在Mistral、OpenEuroLLM、LightOn、Aleph Alpha，以及OVHcloud与新一代NVIDIA Tensor Core GPU推动的推理算力去中心化。

LLM的演进已不再是参数数量的竞赛。未来的赢家将兼具高质量数据、强化后训练、可控推理基础设施、与目标市场相符的许可策略及合规能力。这已成为产业、地缘和法律问题，与科学创新同等重要。

常见问题

什么是LLM（大语言模型）？

LLM是一个极其庞大的神经网络--参数数量从数十亿到数千亿不等--基于transformer架构。它通过预测文本中下一个token进行训练，训练数据量达到数千亿甚至数万亿token。从这一简单任务中，模型涌现出复杂能力：对话、推理、代码生成、翻译等。

LLM和foundation models有什么区别？

foundation models是可复用的IA模型，可通过fine-tuning、RAG或prompt engineering作为许多专业应用的基础。LLM是专注于语言的foundation model类型。但该术语也扩展到多模态模型（图像、音频、视频），它们在架构和经济逻辑上具有相同特点。

2026年表现最好的LLM有哪些？

在公开基准测试中：GPT-4o和o1/o3（OpenAI）、Claude 3.5 Sonnet和Claude 3 Opus（Anthropic）、Gemini 2.0 Flash和Gemini Ultra（Google）、Llama 3.1 405B（Meta）、Mistral Large 2（Mistral AI）、DeepSeek-V3和DeepSeek-R1（DeepSeek）、Qwen2.5（Alibaba）、Hunyuan-T1（Tencent）。没有哪一个在所有维度上都占优；选择取决于具体用途（推理、延迟、成本、语言、多模态等）。

训练一个顶级LLM需要多少钱？

对于参数超过700亿的dense模型，预算从500万美元到1亿美元不等，取决于规模和效率。GPT-4估算约1亿美元，Llama 3.1 405B约5000万美元，DeepSeek-V3约500万美元（效率纪录）。这些数字仅覆盖最终训练；如果包括前期实验和后训练，完整成本是其3到10倍。

什么是Mixture of Experts（MoE）模型？

这是一种架构，将网络划分为多个专门的专家子网络，由一个路由器为每个token选择激活少数专家。这允许在不同比例增加推理成本的情况下提升总参数量。Mixtral 8x7B、DeepSeek-V3和GPT-4o（推测）都采用了该架构。

为什么DeepSeek在2025年1月引发巨大震动？

DeepSeek-V3和DeepSeek-R1证明了用大约1/30的训练预算并以open source方式，也能达到美国顶级专有模型的水平。这动摇了大规模基础设施的垄断地位，并导致NVIDIA股价短暂下跌，揭示了当前IA生态估值的脆弱性。

有哪些欧洲LLM？

Mistral AI（Mistral Large 2、Mixtral、Codestral、Ministral、Pixtral）是欧洲的领军者。Aleph Alpha开发了德语Pharia-1-LLM。LightOn为企业提供Paradigm。Black Forest Labs推出了用于text-to-image的FLUX-1。OpenEuroLLM是欧洲学术联盟。该项目旨在构建美中模型之外的主权替代方案。

open source还是专有：该如何选择？

这取决于具体用途。专有（OpenAI、Anthropic、Gemini）提供托管API和顶级模型的便捷访问。open source（Llama、Mistral、DeepSeek）支持本地部署、数据主权、模型审计和避免厂商锁定--但需要承担基础设施和内部专业成本。在受监管领域（医疗、金融、国防），托管的open source逐渐成为标准。

什么是推理模型？

推理模型会在回答前显式生成chain-of-thought，大幅提升其在高阶数学、逻辑和编程等任务上的表现。OpenAI o1/o3、DeepSeek-R1、Tencent Hunyuan-T1和Gemini Thinking是主要代表。推理成本（延迟）上升，但质量也显著提高。

LLM主要的风险有哪些？

幻觉（生成事实错误内容）、prompt injection和jailbreak（绕过安全措施）、偏见（反映训练语料）、舆论操控（EPFL 2024年研究）、能源和水资源消耗、私人数据泄露、对模型和GPU供应商的产业依赖。AI Act针对系统性风险模型应对了其中若干风险。

如何评估一个LLM？

通过公开基准测试（MMLU、GPQA、MATH、HumanEval、SWE-Bench、LiveCodeBench、MT-Bench）、盲测人工评估（Chatbot Arena）以及针对具体用途的内部测试。公开基准很快饱和：MMLU超过90%的模型已难以区分。真实任务评估（写作、代码生成、长链推理）依然不可或缺。

LLM的下一步是什么？

IA agents--能够自主执行复杂动作的系统--是2025-2027年的重点。更远期，行业关注长期可靠性（对齐、安全）、推理效率、原生多模态融合、持续学习和基础设施主权。训练数据问题依然关键：公共网页语料已趋于饱和，合成数据和内容合作伙伴关系将成为新方向。

Articles récents

5 articles liés à ce sujet

Alibaba在WAIC 2025上展示智能驾驶舱、AI眼镜和战略合作伙伴关系

阿里巴巴云在2025年世界人工智能大会上展示了多种应用于其AI语言模型的应用，包括智能驾驶舱、与Signify合作的城市照明解决方案和连接眼镜。他们还强调了其开源...

人工智能市场商业产品

2025年8月1日阅读更多 →

DeepSeek-R1-0528：这家中国初创公司通过其旗舰模型的更新继续与美国巨头竞争

中国初创公司DeepSeek更新了其R1模型，提高了其在推理、逻辑、数学和编程方面的性能。此次更新减少了错误并改善了应用集成，使R1能够与Open AI的o3和Google的Gem...

工具与技术商业产品

2025年6月2日阅读更多 →

当人工智能成为盾牌：大型语言模型在网络安全中带来的具体改变

大型语言模型（LLMs）在网络安全中的应用日益增多，能够更快速地检测漏洞和攻击。然而，尽管这些模型有效，但它们需要结合人类的混合方法，以控制其一致性并避免...

安全

2025年5月15日阅读更多 →

AI2推出Tülu 3 405B：迈向开源AI新标准的进步

在去年12月发布OLMO 2模型家族后，Allen Institute for Artificial Intelligence (AI2) 通过推出Tülu 3 405B继续其对开源的承诺。此新模型基于Llama 3.1，利用AI...

2025年5月4日阅读更多 →

Mistral Small 3：法国开源优化低延迟GenAI专有模型的回应

上周末，法国独角兽Mistral AI推出了Mistral Small 3，该模型在Apache 2.0许可下发布，优化了延迟，是对专有模型的优秀开源替代。