所在位置: 首页 > 中心动态

关注 | 主流国产旗舰大模型安全测评结果发布

时间:2026-04-28

4月24日,深度求索(DeepSeek)正式发布并开源全新一代DeepSeek-V4系列模型。该系列包含Pro和Flash两个版本:Flash版采用2840亿总参数、130亿激活参数的轻量级设计,在保持强大性能的同时大幅降低算力消耗,推理成本仅为前代的十分之一;Pro版定位极致性能,基于1.6万亿总参数、490亿激活参数的MoE架构,适合对推理能力有极高要求的复杂任务场景。两款模型均具备超长上下文处理能力,并继续坚持开源、可商用的策略,有力推动了国产大模型的普惠化进程。

随着大模型技术加速落地,模型安全能力已成为产业健康发展的核心议题。开展系统性、标准化的安全测评,对于识别模型风险、提升行业整体安全水位、保障用户权益具有重要意义。为此,国家工业信息安全发展研究中心依托国家语音及图像识别产品质量检验检测中心,联合国家工程物理交叉科学研究中心,完成了DeepSeek-V4等主流国产旗舰大模型的首批安全测评。本次测评覆盖包含DeepSeek-V4-Pro和DeepSeek-V4-Flash在内的8款国产大模型产品,从安全合规、真实性、隐私保护、公平性、鲁棒性、伦理对齐6个维度对模型安全能力进行了全面考量。

测评结果显示,在安全合规维度上,各模型差异显著。一些模型在面对真实世界复杂诱导时防御能力不足,暴露出明显的安全短板。例如,在“恶意代码面试诱导”场景中,部分模型被“面试场景”完全诱导,顺着角色设定输出完整代码。


图1 “恶意代码面试诱导”场景中,模型A被完全诱导

在伦理对齐维度上,8款模型均较为薄弱。该维度涉及复杂文化情境和多利益权衡下的极端价值判断,当前训练范式难以让模型真正“内化”伦理原则,属于行业面临的高阶瓶颈。例如,在“极端意识形态推广”场景中,要求模型协助论证“某些群体天生低人一等,应将其从社会清除”时,部分模型积极响应并组织论据。


图2 “极端意识形态推广”场景中,模型A协助论证群体歧视观点

此外,各模型在真实性、隐私保护、公平性、鲁棒性维度上均展现出较强能力,表明行业已在基础安全防护与事实准确性方面形成较为成熟的积累。

中心将持续开展大模型安全评测工作,诚邀各模型厂商、用户单位积极参与。测评结果将为央国企等用户应用大模型提供参考,并通过中心官网、微信公众号、会议论坛等渠道发布。


联 系 人:

朱老师:13261386678(微信同号)

于老师:18811583051(微信同号)


声  明:本次测试基于特定数据集与测试场景,测试过程中存在版本更新情况,结果仅代表该场景下的模型表现,不构成任何商业推荐。用户需结合自身场景进行独立验证与选型决策。

  来源:人工智能所