百度文心大模型5.1发布：万亿参数MoE架构，全面超越GPT-4o

2026年5月8日，百度正式发布文心大模型5.1（ERNIE 5.1），以”知识增强+多模态融合”为核心，在参数规模、上下文窗口、多模态能力和工具调用等方面实现全面突破。作为中国大模型赛道的重要力量，ERNIE 5.1的发布引发了业内广泛关注。

万亿级MoE架构：技术参数的全面跃升

ERNIE 5.1采用万亿级参数的混合专家（MoE）架构，活跃参数约2000亿，在保持强大能力的同时兼顾推理效率。上下文窗口扩展至200万token，这意味着模型可以一次性处理超过三百万汉字或约150万英文单词——相当于完整读完《三体》三部曲并保持前后理解连贯。

训练数据方面，百度使用了超过120T token的高质量中英文语料，覆盖金融、医疗、法律、教育等数十个垂直领域。这种”知识增强”策略使得ERNIE 5.1在专业领域的表现尤为突出。在权威中文评测基准C-Eval上，ERNIE 5.1得分94.1%，超越了GPT-4o的84.6%和通义千问3.0的90.2%；在代码生成基准HumanEval上达到95.8%，同样领先于GPT-4o的91.2%。

原生多模态与深度工具调用

ERNIE 5.1最大的亮点之一是其原生多模态能力。与许多”拼接式”多模态方案不同，ERNIE 5.1从预训练阶段就统一处理文本、图像、音频和视频四种模态数据，实现了真正的跨模态理解和生成。用户可以直接上传一段会议录音，模型能同时提取文字摘要、识别说话人情绪、并生成结构化的会议纪要。

在工具调用方面，ERNIE 5.1支持与超过5000个API无缝协作，涵盖搜索引擎、数据库、办公套件、企业系统等。配合持久记忆功能，模型能够记住用户的偏好和历史交互，逐步实现个性化适配。此外，百度还推出了端侧轻量化版本，支持在手机和边缘设备上本地运行，响应延迟降低至毫秒级。

开放生态与行业落地

ERNIE 5.1即日起通过百度智能云千帆平台和文心一言APP开放API调用，企业用户可享专属微调服务。百度同时宣布了”文心生态伙伴计划”，投入10亿元扶持基于文心大模型的创新应用开发。

行业分析认为，ERNIE 5.1的发布将进一步加剧国内大模型厂商的竞争。在DeepSeek、通义千问、豆包等对手的围追堵截下，百度凭借深厚的中文理解和企业服务经验，在金融、政务、媒体等B端市场仍保持独特优势。不过，如何在开源社区建立影响力、如何应对全球AI巨头的技术迭代，仍是百度需要持续攻克的课题。