Alibaba在WAIC 2025上展示智能驾驶舱、AI眼镜和战略合作伙伴关系
阿里巴巴云在2025年世界人工智能大会上展示了多种应用于其AI语言模型的应用,包括智能驾驶舱、与Signify合作的城市照明解决方案和连接眼镜。他们还强调了其开源...
大型语言模型(LLM)继续改变人工智能的格局,成为从网络安全到医学等各个领域的关键工具。最近,DeepSeek发布了其R1模型的更新版本DeepSeek-R1-0528,增强了其推理、逻辑和编程能力。该版本于2025年5月28日发布,其性能接近OpenAI和Google的旗舰模型,同时降低了幻觉率,这是LLM的常见问题。同时,腾讯推出了Hunyuan-T1,这是一种利用创新混合架构与市场领导者竞争的推理模型。这些发展突显了LLM推理能力不断增强的趋势,这是其整合到复杂和关键系统中的关键因素。
在网络安全领域,LLM展示了其通过促进威胁检测和分析的潜力。纽约大学的一项研究强调了它们利用大量文本数据预测和应对攻击的能力,从而使网络安全成为一个更具响应性和前瞻性的领域。像SecureBERT这样的专注于网络安全的模型显示出有希望的结果,尽管它们的精细化仍然是企业面临的挑战。向专门的LLM发展反映了语言模型应用多样化的趋势,以满足特定需求,同时提高其准确性和可靠性。
对开源LLM的热情也在继续,Allen Institute for AI推出了Tülu 3 405B,这是一种基于Llama 3.1的高性能开源模型。该模型通过使用带有可验证奖励的强化学习,在复杂任务中提高了性能。同时,Mistral AI推出了Mistral Small 3,这是一种针对延迟优化的模型,为专有模型提供了开源替代方案。这些举措反映了在降低推理成本的同时民主化LLM访问的愿望,这是扩大其采用的关键问题,特别是在资源有限的环境中。
尽管大型语言模型继续发展,但仍然存在挑战,尤其是在推理成本和环境影响方面。Microsoft最近推出了BitNet.cpp,这是一个优化量化为1位的LLM推理的开源框架,从而减少了其碳足迹。这一创新强调了在LLM不断增长的规模和复杂性中可持续性的重要性。此外,将LLM整合到医疗诊断等领域仍需改进,UVA Health的研究表明,尽管LLM在某些任务上可能超过医生,但其整合尚未显著改善整体诊断性能。
transformer架构是所有现代LLM的基础,核心由两大模块组成。首先是自注意力机制,使模型能够针对文本中的每个位置,计算其他所有位置表示的加权组合。这一操作天然适合并行处理,因此transformer自2017年起取代了曾经主导NLP领域的循环神经网络(RNN、LSTM)。第二个核心是堆叠数十层相同的transformer层(顶尖模型通常在32至96层之间),每一层都进一步优化了表达能力。
当代LLM在架构上分为多种变体:
OpenAI凭借ChatGPT、GPT-4o、GPT-4o mini以及o1/o3推理模型家族,依然被视为市场领导者。到2026年,公司估值已达数千亿美元,主要由Microsoft和SoftBank投资。其商业策略涵盖API(按token计费)、面向大众的ChatGPT Plus(每月20美元)以及企业级产品(ChatGPT Enterprise、Azure OpenAI Service)。OpenAI还拓展了业务边界,推出了OAI-SearchBot爬虫和SearchGPT搜索产品。
Anthropic由OpenAI前成员Dario和Daniela Amodei等于2021年创立,以安全为核心差异点。Claude家族(Haiku、Sonnet、Opus)因长文本写作、代码生成和长上下文推理受到青睐。Anthropic获得Amazon、Google和SoftBank投资。2026年5月,Anthropic确认以每月约12.5亿美元的价格租用xAI的Colossus 1算力,彰显算力资源的高度集中。
Google DeepMind自2023年起整合AI业务于Gemini品牌。Gemini家族(Nano、Flash、Pro、Ultra,以及2024年12月发布的Gemini 2.0 Flash)已深度集成至搜索引擎(AI Overviews)和Workspace办公套件。Google凭借对训练数据(Web、YouTube、Books)和TPU基础设施的掌控,拥有结构性优势。
Meta则以weights open战略推动Llama系列(Llama 1于2023年2月、Llama 2于2023年7月、Llama 3于2024年4月、Llama 3.1 405B于2024年7月发布)。此举推动了foundation models的普及,培育出大量衍生生态(Vicuna、Tulu、行业fine-tunes)。然而,Meta于2025年7月拒绝签署欧盟GPAI行为准则,并暂缓Llama 3多模态版本在欧洲的发布。
Mistral AI由Arthur Mensch、Guillaume Lample和Timothée Lacroix于2023年4月在巴黎创立,迅速成为欧洲AI新秀。其混合战略结合了开放模型(Mistral 7B、Mixtral 8x7B、Codestral Mamba、Mathstral、Ministral 3B/8B)与专有模型(Mistral Large 2、Pixtral Large)。Mistral签署了GPAI行为准则,并与NVIDIA(Mistral NeMo 12B)、达索系统、Capgemini和SAP建立了战略合作。
在中国,Alibaba(Qwen家族)、Baidu(ERNIE 4.5、ERNIE X1)、Tencent(Hunyuan-T1),尤其是DeepSeek,快速追赶并挑战美国实验室。2025年1月,DeepSeek-V3以训练成本仅为西方竞品约1/30的优异表现震惊业界。紧随其后的DeepSeek-R1于2025年6月(R1-0528)更新,直接引发了NVIDIA股价短暂下跌,市场对超大规模基础设施的溢价产生质疑。
其他专注细分领域的企业还包括:xAI(Grok、Colossus基础设施)、Cohere(企业级多语种模型、Aya 23)、AI2(Tülu 3 405B、全开放模型)、Aleph Alpha(德语Pharia-1-LLM)、Black Forest Labs(FLUX-1用于text-to-image)、LightOn(企业级Paradigm)、Hugging Face(模型中心、SmolLM2)、OpenEuroLLM(欧洲开放联盟)。
2026年顶级LLM格局由十余个家族构成,各自拥有不同规模和变体:
顶级LLM的训练需要极其庞大的资源。以GPT-4为例,公开估算其训练预算约为1亿美元,动用数万块H100 GPU,历时三个月。Llama 3.1 405B使用了16,000块H100,累计约3,000万GPU小时。Mistral Large 2和Mixtral等欧洲模型则以显著更低的预算完成训练,证明通过数据精细处理也能实现竞争力性能。
OpenAI提出并经DeepMind(Chinchilla, 2022)完善的scaling laws长期主导行业节奏:只要参数量与训练数据量均衡增长,模型质量可按规律提升。但2024年底,这一等式受到挑战:预算持续膨胀却难以带来benchmark上的巨大提升,行业关注点正转向数据质量、后训练推理、智能体和多模态等新维度。
算力基础设施已成为重大战略议题。NVIDIA凭借对H100/H200/B200 GPU的垄断地位,掌控了大部分价值链。美国出口管制限制了对中国的高端芯片销售,促使DeepSeek和Alibaba针对降级芯片(H800)优化训练。xAI于2024年在孟菲斯建成Colossus数据中心,先后部署10万和20万块H100/H200 GPU,创下行业新纪录。
现代LLM已能胜任多种任务:写作、摘要、翻译、代码生成、对话、信息抽取、分类、结构化与非结构化文档处理。它们已成为众多应用的标准组件--如对话式搜索引擎、编程助手(Copilot、Cursor)、法律和医疗智能体、客户支持系统、Office及Workspace生产力工具等。
其局限性同样有充分记录。LLM会出现hallucination--生成内容看似合理实则错误,尤其在小众领域、精确数字和文献引用方面。面对对抗性攻击(prompt injection、jailbreak)时,鲁棒性不足。EPFL于2024年12月发布的研究揭示了LLM在适应性攻击下的极限。2024年4月EPFL的另一项研究表明,LLM可被操控以影响用户观点。此外,LLM的能耗和耗水量巨大,正受到监管机构和股东的日益关注。其偏见也反映了训练语料以英语和欧美为主的现状。
自2023年以来,开放与封闭LLM的分歧一直主导行业讨论。支持开放模型的Meta、Mistral、Hugging Face、AI2、DeepSeek、La Quadrature du Net等,强调技术自主、可独立审计、学术传播和产业韧性。反对者如Anthropic、OpenAI(部分产品)则警示模型一旦发布后难以撤回,且易被滥用于生物恐怖、虚假信息传播和欺诈等。
AI Act对此作出部分裁定:只要模型参数、架构及使用信息公开,即可获得部分豁免。但对于系统性风险模型(训练达到10²⁵ FLOPS)则不适用。2026年,open source生态由Llama、Mistral、DeepSeek和Qwen主导,已能覆盖大部分企业与学术需求,无需依赖单一API供应商。
除通用模型外,生态系统正向垂直细分领域扩展。在医疗领域,有Bioptimus的H-optimus-0用于辅助诊断,Aleph Alpha的德语Pharia-1-LLM,以及针对放射学、肿瘤学的专用fine-tunes。法律领域有Lefebvre Dalloz-巴黎律师协会助手、Talan-Mutuelle Générale应用。代码领域有Codestral(Mistral)、Code Llama(Meta)、DeepSeek-Coder。金融领域则有BNP Paribas、Crédit Agricole、JPMorgan等自研模型。小而高效模型(SLM,Small Language Models)如Phi-3、Mistral Ministral、SmolLM2、Gemma 2 2B,专为嵌入式场景(手机、汽车、IoT)设计,以极低推理成本实现可接受的质量。
2025年,AI智能体作为LLM新范式快速崛起。智能体不再仅仅回答单一请求,而是能串联多步操作(调用工具、访问Web、写入文件、执行代码)完成复杂任务。Gemini 2.0 Flash于2024年12月发布,被视为引领这一新产品家族的模型。AI Builders的AI Decision Matrix为IT负责人评估众多解决方案提供了对比框架。
未来18个月需关注多项关键趋势:
LLM的演进已不再是参数数量的竞赛。未来的赢家将兼具高质量数据、强化后训练、可控推理基础设施、与目标市场相符的许可策略及合规能力。这已成为产业、地缘和法律问题,与科学创新同等重要。
LLM是一个极其庞大的神经网络--参数数量从数十亿到数千亿不等--基于transformer架构。它通过预测文本中下一个token进行训练,训练数据量达到数千亿甚至数万亿token。从这一简单任务中,模型涌现出复杂能力:对话、推理、代码生成、翻译等。
foundation models是可复用的IA模型,可通过fine-tuning、RAG或prompt engineering作为许多专业应用的基础。LLM是专注于语言的foundation model类型。但该术语也扩展到多模态模型(图像、音频、视频),它们在架构和经济逻辑上具有相同特点。
在公开基准测试中:GPT-4o和o1/o3(OpenAI)、Claude 3.5 Sonnet和Claude 3 Opus(Anthropic)、Gemini 2.0 Flash和Gemini Ultra(Google)、Llama 3.1 405B(Meta)、Mistral Large 2(Mistral AI)、DeepSeek-V3和DeepSeek-R1(DeepSeek)、Qwen2.5(Alibaba)、Hunyuan-T1(Tencent)。没有哪一个在所有维度上都占优;选择取决于具体用途(推理、延迟、成本、语言、多模态等)。
对于参数超过700亿的dense模型,预算从500万美元到1亿美元不等,取决于规模和效率。GPT-4估算约1亿美元,Llama 3.1 405B约5000万美元,DeepSeek-V3约500万美元(效率纪录)。这些数字仅覆盖最终训练;如果包括前期实验和后训练,完整成本是其3到10倍。
这是一种架构,将网络划分为多个专门的专家子网络,由一个路由器为每个token选择激活少数专家。这允许在不同比例增加推理成本的情况下提升总参数量。Mixtral 8x7B、DeepSeek-V3和GPT-4o(推测)都采用了该架构。
DeepSeek-V3和DeepSeek-R1证明了用大约1/30的训练预算并以open source方式,也能达到美国顶级专有模型的水平。这动摇了大规模基础设施的垄断地位,并导致NVIDIA股价短暂下跌,揭示了当前IA生态估值的脆弱性。
Mistral AI(Mistral Large 2、Mixtral、Codestral、Ministral、Pixtral)是欧洲的领军者。Aleph Alpha开发了德语Pharia-1-LLM。LightOn为企业提供Paradigm。Black Forest Labs推出了用于text-to-image的FLUX-1。OpenEuroLLM是欧洲学术联盟。该项目旨在构建美中模型之外的主权替代方案。
这取决于具体用途。专有(OpenAI、Anthropic、Gemini)提供托管API和顶级模型的便捷访问。open source(Llama、Mistral、DeepSeek)支持本地部署、数据主权、模型审计和避免厂商锁定--但需要承担基础设施和内部专业成本。在受监管领域(医疗、金融、国防),托管的open source逐渐成为标准。
推理模型会在回答前显式生成chain-of-thought,大幅提升其在高阶数学、逻辑和编程等任务上的表现。OpenAI o1/o3、DeepSeek-R1、Tencent Hunyuan-T1和Gemini Thinking是主要代表。推理成本(延迟)上升,但质量也显著提高。
幻觉(生成事实错误内容)、prompt injection和jailbreak(绕过安全措施)、偏见(反映训练语料)、舆论操控(EPFL 2024年研究)、能源和水资源消耗、私人数据泄露、对模型和GPU供应商的产业依赖。AI Act针对系统性风险模型应对了其中若干风险。
通过公开基准测试(MMLU、GPQA、MATH、HumanEval、SWE-Bench、LiveCodeBench、MT-Bench)、盲测人工评估(Chatbot Arena)以及针对具体用途的内部测试。公开基准很快饱和:MMLU超过90%的模型已难以区分。真实任务评估(写作、代码生成、长链推理)依然不可或缺。
IA agents--能够自主执行复杂动作的系统--是2025-2027年的重点。更远期,行业关注长期可靠性(对齐、安全)、推理效率、原生多模态融合、持续学习和基础设施主权。训练数据问题依然关键:公共网页语料已趋于饱和,合成数据和内容合作伙伴关系将成为新方向。
5 articles liés à ce sujet
阿里巴巴云在2025年世界人工智能大会上展示了多种应用于其AI语言模型的应用,包括智能驾驶舱、与Signify合作的城市照明解决方案和连接眼镜。他们还强调了其开源...
中国初创公司DeepSeek更新了其R1模型,提高了其在推理、逻辑、数学和编程方面的性能。此次更新减少了错误并改善了应用集成,使R1能够与Open AI的o3和Google的Gem...
大型语言模型(LLMs)在网络安全中的应用日益增多,能够更快速地检测漏洞和攻击。然而,尽管这些模型有效,但它们需要结合人类的混合方法,以控制其一致性并避免...
在去年12月发布OLMO 2模型家族后,Allen Institute for Artificial Intelligence (AI2) 通过推出Tülu 3 405B继续其对开源的承诺。此新模型基于Llama 3.1,利用AI...
上周末,法国独角兽Mistral AI推出了Mistral Small 3,该模型在Apache 2.0许可下发布,优化了延迟,是对专有模型的优秀开源替代。