2026年5月8日,百度正式发布文心大模型5.1(ERNIE 5.1),以”知识增强+多模态融合”为核心,在参数规模、上下文窗口、多模态能力和工具调用等方面实现全面突破。作为中国大模型赛道的重要力量,ERNIE 5.1的发布引发了业内广泛关注。
万亿级MoE架构:技术参数的全面跃升
ERNIE 5.1采用万亿级参数的混合专家(MoE)架构,活跃参数约2000亿,在保持强大能力的同时兼顾推理效率。上下文窗口扩展至200万token,这意味着模型可以一次性处理超过三百万汉字或约150万英文单词——相当于完整读完《三体》三部曲并保持前后理解连贯。
训练数据方面,百度使用了超过120T token的高质量中英文语料,覆盖金融、医疗、法律、教育等数十个垂直领域。这种”知识增强”策略使得ERNIE 5.1在专业领域的表现尤为突出。在权威中文评测基准C-Eval上,ERNIE 5.1得分94.1%,超越了GPT-4o的84.6%和通义千问3.0的90.2%;在代码生成基准HumanEval上达到95.8%,同样领先于GPT-4o的91.2%。

原生多模态与深度工具调用
ERNIE 5.1最大的亮点之一是其原生多模态能力。与许多”拼接式”多模态方案不同,ERNIE 5.1从预训练阶段就统一处理文本、图像、音频和视频四种模态数据,实现了真正的跨模态理解和生成。用户可以直接上传一段会议录音,模型能同时提取文字摘要、识别说话人情绪、并生成结构化的会议纪要。
在工具调用方面,ERNIE 5.1支持与超过5000个API无缝协作,涵盖搜索引擎、数据库、办公套件、企业系统等。配合持久记忆功能,模型能够记住用户的偏好和历史交互,逐步实现个性化适配。此外,百度还推出了端侧轻量化版本,支持在手机和边缘设备上本地运行,响应延迟降低至毫秒级。
开放生态与行业落地
ERNIE 5.1即日起通过百度智能云千帆平台和文心一言APP开放API调用,企业用户可享专属微调服务。百度同时宣布了”文心生态伙伴计划”,投入10亿元扶持基于文心大模型的创新应用开发。

行业分析认为,ERNIE 5.1的发布将进一步加剧国内大模型厂商的竞争。在DeepSeek、通义千问、豆包等对手的围追堵截下,百度凭借深厚的中文理解和企业服务经验,在金融、政务、媒体等B端市场仍保持独特优势。不过,如何在开源社区建立影响力、如何应对全球AI巨头的技术迭代,仍是百度需要持续攻克的课题。
消费者能用到什么?
对于普通用户而言,ERNIE 5.1的升级将直接体现在文心一言APP的体验提升上:更长的对话记忆、更准确的复杂指令理解、更自然的图像识别交互。百度还预告了即将上线的”文心视频”功能,支持通过文本描述直接生成短视频内容,这将进一步降低内容创作的门槛。



