Logo ActuIA ActuIA

信息参考来源
人工智能

Français English Español Italiano Deutsch Nederlands Română Polski Português العربية Türkçe Українська 日本語 한국어
发布
首页
AI 观察

按类别

融资 并购 模型发布 产品发布 合作 公共项目 / 项目征集 监管与治理 诉讼 研究与科学 部署与采用 基础设施与算力 企业与战略 安全与事件 报告与研究 活动

按行业

交通运输 企业 企业文化 保险 健康 - 医疗 司法 媒体 教育 环境 能源 营销 行业 金融 风险防控

按类别

融资 并购 模型发布 产品发布 合作 公共项目 / 项目征集 监管与治理 诉讼 研究与科学 部署与采用 基础设施与算力 企业与战略 安全与事件 报告与研究 活动

按行业

交通运输 企业 企业文化 保险 健康 - 医疗 司法 媒体 教育 环境 能源 营销 行业 金融 风险防控
最新新闻
语言

LLM : 大型语言模型与foundation models

查看最新资讯
Tech family
大型语言模型(英文为 Large Language Models,简称 LLM)是一类通过在海量文本语料上训练的神经网络,用于预测词语序列中最有可能出现的下一个词。自2022年以来,它们已成为生成式IA的核心引擎,并引发了OpenAI、Anthropic、Google DeepMind、Meta、Mistral AI、Alibaba、DeepSeek等二十多家企业之间前所未有的产业竞争。本文对其架构、主要参与者、2026年标杆模型及相关争议进行了梳理。

📰 Actualités récentes

最新动态

大型语言模型(LLM)继续改变人工智能的格局,成为从网络安全到医学等各个领域的关键工具。最近,DeepSeek发布了其R1模型的更新版本DeepSeek-R1-0528,增强了其推理、逻辑和编程能力。该版本于2025年5月28日发布,其性能接近OpenAI和Google的旗舰模型,同时降低了幻觉率,这是LLM的常见问题。同时,腾讯推出了Hunyuan-T1,这是一种利用创新混合架构与市场领导者竞争的推理模型。这些发展突显了LLM推理能力不断增强的趋势,这是其整合到复杂和关键系统中的关键因素。

在网络安全领域,LLM展示了其通过促进威胁检测和分析的潜力。纽约大学的一项研究强调了它们利用大量文本数据预测和应对攻击的能力,从而使网络安全成为一个更具响应性和前瞻性的领域。像SecureBERT这样的专注于网络安全的模型显示出有希望的结果,尽管它们的精细化仍然是企业面临的挑战。向专门的LLM发展反映了语言模型应用多样化的趋势,以满足特定需求,同时提高其准确性和可靠性。

对开源LLM的热情也在继续,Allen Institute for AI推出了Tülu 3 405B,这是一种基于Llama 3.1的高性能开源模型。该模型通过使用带有可验证奖励的强化学习,在复杂任务中提高了性能。同时,Mistral AI推出了Mistral Small 3,这是一种针对延迟优化的模型,为专有模型提供了开源替代方案。这些举措反映了在降低推理成本的同时民主化LLM访问的愿望,这是扩大其采用的关键问题,特别是在资源有限的环境中。

尽管大型语言模型继续发展,但仍然存在挑战,尤其是在推理成本和环境影响方面。Microsoft最近推出了BitNet.cpp,这是一个优化量化为1位的LLM推理的开源框架,从而减少了其碳足迹。这一创新强调了在LLM不断增长的规模和复杂性中可持续性的重要性。此外,将LLM整合到医疗诊断等领域仍需改进,UVA Health的研究表明,尽管LLM在某些任务上可能超过医生,但其整合尚未显著改善整体诊断性能。

完整指南

架构:从transformer到现代模型

transformer架构是所有现代LLM的基础,核心由两大模块组成。首先是自注意力机制,使模型能够针对文本中的每个位置,计算其他所有位置表示的加权组合。这一操作天然适合并行处理,因此transformer自2017年起取代了曾经主导NLP领域的循环神经网络(RNN、LSTM)。第二个核心是堆叠数十层相同的transformer层(顶尖模型通常在32至96层之间),每一层都进一步优化了表达能力。

当代LLM在架构上分为多种变体:

  • 稠密模型,即每次推理时所有参数均被激活(如GPT-4历史版本、Claude、Llama 3.1 405B);
  • Mixture of Experts(MoE)模型,仅根据当前token激活部分专家子网络,在参数量相同的情况下大幅降低推理成本(Mixtral、DeepSeek-V3、推测中的GPT-4o);
  • 原生多模态模型,可在统一表达空间内处理和生成文本、图片、音频与视频(Gemini、GPT-4o、Pixtral Large、Claude 3.5 Sonnet);
  • reasoning models(推理模型),在回答前会生成显式的chain-of-thought--如DeepSeek-R1、OpenAI o1/o3、Tencent Hunyuan-T1、Gemini Thinking--虽然推理延迟更高,但在数学、逻辑和编程等任务上表现尤为突出。

2026年主要玩家

OpenAI凭借ChatGPT、GPT-4o、GPT-4o mini以及o1/o3推理模型家族,依然被视为市场领导者。到2026年,公司估值已达数千亿美元,主要由Microsoft和SoftBank投资。其商业策略涵盖API(按token计费)、面向大众的ChatGPT Plus(每月20美元)以及企业级产品(ChatGPT Enterprise、Azure OpenAI Service)。OpenAI还拓展了业务边界,推出了OAI-SearchBot爬虫和SearchGPT搜索产品。

Anthropic由OpenAI前成员Dario和Daniela Amodei等于2021年创立,以安全为核心差异点。Claude家族(Haiku、Sonnet、Opus)因长文本写作、代码生成和长上下文推理受到青睐。Anthropic获得Amazon、Google和SoftBank投资。2026年5月,Anthropic确认以每月约12.5亿美元的价格租用xAI的Colossus 1算力,彰显算力资源的高度集中。

Google DeepMind自2023年起整合AI业务于Gemini品牌。Gemini家族(Nano、Flash、Pro、Ultra,以及2024年12月发布的Gemini 2.0 Flash)已深度集成至搜索引擎(AI Overviews)和Workspace办公套件。Google凭借对训练数据(Web、YouTube、Books)和TPU基础设施的掌控,拥有结构性优势。

Meta则以weights open战略推动Llama系列(Llama 1于2023年2月、Llama 2于2023年7月、Llama 3于2024年4月、Llama 3.1 405B于2024年7月发布)。此举推动了foundation models的普及,培育出大量衍生生态(Vicuna、Tulu、行业fine-tunes)。然而,Meta于2025年7月拒绝签署欧盟GPAI行为准则,并暂缓Llama 3多模态版本在欧洲的发布。

Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix于2023年4月在巴黎创立,迅速成为欧洲AI新秀。其混合战略结合了开放模型(Mistral 7B、Mixtral 8x7B、Codestral Mamba、Mathstral、Ministral 3B/8B)与专有模型(Mistral Large 2、Pixtral Large)。Mistral签署了GPAI行为准则,并与NVIDIA(Mistral NeMo 12B)、达索系统、Capgemini和SAP建立了战略合作。

在中国,Alibaba(Qwen家族)、Baidu(ERNIE 4.5、ERNIE X1)、Tencent(Hunyuan-T1),尤其是DeepSeek,快速追赶并挑战美国实验室。2025年1月,DeepSeek-V3以训练成本仅为西方竞品约1/30的优异表现震惊业界。紧随其后的DeepSeek-R1于2025年6月(R1-0528)更新,直接引发了NVIDIA股价短暂下跌,市场对超大规模基础设施的溢价产生质疑。

其他专注细分领域的企业还包括:xAI(Grok、Colossus基础设施)、Cohere(企业级多语种模型、Aya 23)、AI2(Tülu 3 405B、全开放模型)、Aleph Alpha(德语Pharia-1-LLM)、Black Forest Labs(FLUX-1用于text-to-image)、LightOn(企业级Paradigm)、Hugging Face(模型中心、SmolLM2)、OpenEuroLLM(欧洲开放联盟)。

2026年标杆模型

2026年顶级LLM格局由十余个家族构成,各自拥有不同规模和变体:

  • GPT-4o / GPT-4o mini(OpenAI)--原生多模态,低延迟,128k tokens上下文窗口。GPT-4o mini已成为大规模部署的经济标杆。
  • o1 / o3(OpenAI)--内置chain-of-thought的reasoning models,数理竞赛(AIME、IMO)和编程(Codeforces)领域表现极强。
  • Claude 3.5 Sonnet / Claude 3 Opus(Anthropic)--200k窗口,长文本写作和文档阅读表现优异。
  • Gemini 2.0 Flash / Gemini Ultra(Google DeepMind)--原生多模态,深度集成Google生态。
  • Llama 3.1 405B / Llama 3.3(Meta)--open source稠密模型领导者。
  • Mistral Large 2 / Pixtral Large(Mistral AI)--欧洲代表,部分版本开放权重。
  • DeepSeek-V3 / DeepSeek-R1-0528(DeepSeek)--中国open source,推理能力强,训练成本极低。
  • Qwen2.5(Alibaba)--中国多语种open source领导者,1M tokens窗口。
  • NOVA(Amazon)--自有foundation models,2024年12月发布。
  • Phi-3 / Phi-3.5(Microsoft)--高效小模型,适合嵌入式场景。
  • Hunyuan-T1(Tencent)--中国推理模型,媲美国际最强水平。
  • Grok 3(xAI)--实时接入X,超大基础设施支持。

训练与成本

顶级LLM的训练需要极其庞大的资源。以GPT-4为例,公开估算其训练预算约为1亿美元,动用数万块H100 GPU,历时三个月。Llama 3.1 405B使用了16,000块H100,累计约3,000万GPU小时。Mistral Large 2和Mixtral等欧洲模型则以显著更低的预算完成训练,证明通过数据精细处理也能实现竞争力性能。

OpenAI提出并经DeepMind(Chinchilla, 2022)完善的scaling laws长期主导行业节奏:只要参数量与训练数据量均衡增长,模型质量可按规律提升。但2024年底,这一等式受到挑战:预算持续膨胀却难以带来benchmark上的巨大提升,行业关注点正转向数据质量、后训练推理、智能体和多模态等新维度。

算力基础设施已成为重大战略议题。NVIDIA凭借对H100/H200/B200 GPU的垄断地位,掌控了大部分价值链。美国出口管制限制了对中国的高端芯片销售,促使DeepSeek和Alibaba针对降级芯片(H800)优化训练。xAI于2024年在孟菲斯建成Colossus数据中心,先后部署10万和20万块H100/H200 GPU,创下行业新纪录。

能力与局限

现代LLM已能胜任多种任务:写作、摘要、翻译、代码生成、对话、信息抽取、分类、结构化与非结构化文档处理。它们已成为众多应用的标准组件--如对话式搜索引擎、编程助手(Copilot、Cursor)、法律和医疗智能体、客户支持系统、Office及Workspace生产力工具等。

其局限性同样有充分记录。LLM会出现hallucination--生成内容看似合理实则错误,尤其在小众领域、精确数字和文献引用方面。面对对抗性攻击(prompt injection、jailbreak)时,鲁棒性不足。EPFL于2024年12月发布的研究揭示了LLM在适应性攻击下的极限。2024年4月EPFL的另一项研究表明,LLM可被操控以影响用户观点。此外,LLM的能耗和耗水量巨大,正受到监管机构和股东的日益关注。其偏见也反映了训练语料以英语和欧美为主的现状。

Open source与专有模型

自2023年以来,开放与封闭LLM的分歧一直主导行业讨论。支持开放模型的Meta、Mistral、Hugging Face、AI2、DeepSeek、La Quadrature du Net等,强调技术自主、可独立审计、学术传播和产业韧性。反对者如Anthropic、OpenAI(部分产品)则警示模型一旦发布后难以撤回,且易被滥用于生物恐怖、虚假信息传播和欺诈等。

AI Act对此作出部分裁定:只要模型参数、架构及使用信息公开,即可获得部分豁免。但对于系统性风险模型(训练达到10²⁵ FLOPS)则不适用。2026年,open source生态由Llama、Mistral、DeepSeek和Qwen主导,已能覆盖大部分企业与学术需求,无需依赖单一API供应商。

垂直与专用模型

除通用模型外,生态系统正向垂直细分领域扩展。在医疗领域,有Bioptimus的H-optimus-0用于辅助诊断,Aleph Alpha的德语Pharia-1-LLM,以及针对放射学、肿瘤学的专用fine-tunes。法律领域有Lefebvre Dalloz-巴黎律师协会助手、Talan-Mutuelle Générale应用。代码领域有Codestral(Mistral)、Code Llama(Meta)、DeepSeek-Coder。金融领域则有BNP Paribas、Crédit Agricole、JPMorgan等自研模型。小而高效模型(SLM,Small Language Models)如Phi-3、Mistral Ministral、SmolLM2、Gemma 2 2B,专为嵌入式场景(手机、汽车、IoT)设计,以极低推理成本实现可接受的质量。

2025年,AI智能体作为LLM新范式快速崛起。智能体不再仅仅回答单一请求,而是能串联多步操作(调用工具、访问Web、写入文件、执行代码)完成复杂任务。Gemini 2.0 Flash于2024年12月发布,被视为引领这一新产品家族的模型。AI Builders的AI Decision Matrix为IT负责人评估众多解决方案提供了对比框架。

2026年及未来展望

未来18个月需关注多项关键趋势:

  • GPAI合规性,AI Act自2025年8月起正式生效;
  • 推理经济,其体量已超越训练经济,MoE架构与量化(BitNet、vLLM、llm-optimizer)成为主流;
  • 与著作权法的衔接,尤其是在法国Darcos法案搁置及Meta-Llama、NYT-OpenAI、Getty-Stable Diffusion相关判例后;
  • 推理模型竞赛,OpenAI o3、DeepSeek-R1、Gemini Thinking、Hunyuan-T1激烈角逐;
  • 多模态收敛,原生模型能在统一空间处理文本、图片、视频和音频;
  • 智能体崛起,并带来可靠性(长任务成功率)、安全性(行动可控)及商业模式等新议题;
  • 欧洲自主权,集中体现在Mistral、OpenEuroLLM、LightOn、Aleph Alpha,以及OVHcloud与新一代NVIDIA Tensor Core GPU推动的推理算力去中心化。

LLM的演进已不再是参数数量的竞赛。未来的赢家将兼具高质量数据、强化后训练、可控推理基础设施、与目标市场相符的许可策略及合规能力。这已成为产业、地缘和法律问题,与科学创新同等重要。

常见问题

什么是LLM(大语言模型)?

LLM是一个极其庞大的神经网络--参数数量从数十亿到数千亿不等--基于transformer架构。它通过预测文本中下一个token进行训练,训练数据量达到数千亿甚至数万亿token。从这一简单任务中,模型涌现出复杂能力:对话、推理、代码生成、翻译等。

LLM和foundation models有什么区别?

foundation models是可复用的IA模型,可通过fine-tuning、RAG或prompt engineering作为许多专业应用的基础。LLM是专注于语言的foundation model类型。但该术语也扩展到多模态模型(图像、音频、视频),它们在架构和经济逻辑上具有相同特点。

2026年表现最好的LLM有哪些?

在公开基准测试中:GPT-4o和o1/o3(OpenAI)、Claude 3.5 Sonnet和Claude 3 Opus(Anthropic)、Gemini 2.0 Flash和Gemini Ultra(Google)、Llama 3.1 405B(Meta)、Mistral Large 2(Mistral AI)、DeepSeek-V3和DeepSeek-R1(DeepSeek)、Qwen2.5(Alibaba)、Hunyuan-T1(Tencent)。没有哪一个在所有维度上都占优;选择取决于具体用途(推理、延迟、成本、语言、多模态等)。

训练一个顶级LLM需要多少钱?

对于参数超过700亿的dense模型,预算从500万美元到1亿美元不等,取决于规模和效率。GPT-4估算约1亿美元,Llama 3.1 405B约5000万美元,DeepSeek-V3约500万美元(效率纪录)。这些数字仅覆盖最终训练;如果包括前期实验和后训练,完整成本是其3到10倍。

什么是Mixture of Experts(MoE)模型?

这是一种架构,将网络划分为多个专门的专家子网络,由一个路由器为每个token选择激活少数专家。这允许在不同比例增加推理成本的情况下提升总参数量。Mixtral 8x7B、DeepSeek-V3和GPT-4o(推测)都采用了该架构。

为什么DeepSeek在2025年1月引发巨大震动?

DeepSeek-V3和DeepSeek-R1证明了用大约1/30的训练预算并以open source方式,也能达到美国顶级专有模型的水平。这动摇了大规模基础设施的垄断地位,并导致NVIDIA股价短暂下跌,揭示了当前IA生态估值的脆弱性。

有哪些欧洲LLM?

Mistral AI(Mistral Large 2、Mixtral、Codestral、Ministral、Pixtral)是欧洲的领军者。Aleph Alpha开发了德语Pharia-1-LLM。LightOn为企业提供Paradigm。Black Forest Labs推出了用于text-to-image的FLUX-1。OpenEuroLLM是欧洲学术联盟。该项目旨在构建美中模型之外的主权替代方案。

open source还是专有:该如何选择?

这取决于具体用途。专有(OpenAI、Anthropic、Gemini)提供托管API和顶级模型的便捷访问。open source(Llama、Mistral、DeepSeek)支持本地部署、数据主权、模型审计和避免厂商锁定--但需要承担基础设施和内部专业成本。在受监管领域(医疗、金融、国防),托管的open source逐渐成为标准。

什么是推理模型?

推理模型会在回答前显式生成chain-of-thought,大幅提升其在高阶数学、逻辑和编程等任务上的表现。OpenAI o1/o3、DeepSeek-R1、Tencent Hunyuan-T1和Gemini Thinking是主要代表。推理成本(延迟)上升,但质量也显著提高。

LLM主要的风险有哪些?

幻觉(生成事实错误内容)、prompt injection和jailbreak(绕过安全措施)、偏见(反映训练语料)、舆论操控(EPFL 2024年研究)、能源和水资源消耗、私人数据泄露、对模型和GPU供应商的产业依赖。AI Act针对系统性风险模型应对了其中若干风险。

如何评估一个LLM?

通过公开基准测试(MMLU、GPQA、MATH、HumanEval、SWE-Bench、LiveCodeBench、MT-Bench)、盲测人工评估(Chatbot Arena)以及针对具体用途的内部测试。公开基准很快饱和:MMLU超过90%的模型已难以区分。真实任务评估(写作、代码生成、长链推理)依然不可或缺。

LLM的下一步是什么?

IA agents--能够自主执行复杂动作的系统--是2025-2027年的重点。更远期,行业关注长期可靠性(对齐、安全)、推理效率、原生多模态融合、持续学习和基础设施主权。训练数据问题依然关键:公共网页语料已趋于饱和,合成数据和内容合作伙伴关系将成为新方向。

相关文章

Articles récents

5 articles liés à ce sujet

Alibaba在WAIC 2025上展示智能驾驶舱、AI眼镜和战略合作伙伴关系

Alibaba在WAIC 2025上展示智能驾驶舱、AI眼镜和战略合作伙伴关系

阿里巴巴云在2025年世界人工智能大会上展示了多种应用于其AI语言模型的应用,包括智能驾驶舱、与Signify合作的城市照明解决方案和连接眼镜。他们还强调了其开源...

人工智能市场 商业产品
2025年8月1日 阅读更多 →
DeepSeek-R1-0528:这家中国初创公司通过其旗舰模型的更新继续与美国巨头竞争

DeepSeek-R1-0528:这家中国初创公司通过其旗舰模型的更新继续与美国巨头竞争

中国初创公司DeepSeek更新了其R1模型,提高了其在推理、逻辑、数学和编程方面的性能。此次更新减少了错误并改善了应用集成,使R1能够与Open AI的o3和Google的Gem...

工具与技术 商业产品
2025年6月2日 阅读更多 →
当人工智能成为盾牌:大型语言模型在网络安全中带来的具体改变

当人工智能成为盾牌:大型语言模型在网络安全中带来的具体改变

大型语言模型(LLMs)在网络安全中的应用日益增多,能够更快速地检测漏洞和攻击。然而,尽管这些模型有效,但它们需要结合人类的混合方法,以控制其一致性并避免...

安全
2025年5月15日 阅读更多 →
AI2推出Tülu 3 405B:迈向开源AI新标准的进步

AI2推出Tülu 3 405B:迈向开源AI新标准的进步

在去年12月发布OLMO 2模型家族后,Allen Institute for Artificial Intelligence (AI2) 通过推出Tülu 3 405B继续其对开源的承诺。此新模型基于Llama 3.1,利用AI...

2025年5月4日 阅读更多 →
Mistral Small 3:法国开源优化低延迟GenAI专有模型的回应

Mistral Small 3:法国开源优化低延迟GenAI专有模型的回应

上周末,法国独角兽Mistral AI推出了Mistral Small 3,该模型在Apache 2.0许可下发布,优化了延迟,是对专有模型的优秀开源替代。

2025年5月4日 阅读更多 →

Statistiques

Articles totaux 5
Contenu mis à jour 5天前
Logo ActuIA Logo ActuIA

您了解人工智能及其进展的信息来源。

导航

  • 法律声明
  • 联系

关注我们

© 2019-2026 Net Square Digital. 版权所有。