OWASP LLM Top 10 中文解读:大语言模型安全设计指南

大语言模型应用(Large Language Model Applications,简称 LLM 应用)正在以霍然之势被数字化社会应用于各行各业:AI 应用、自动化流程、智能助理、文本生成、代码输出……然而,它们的高能力同时也带来了新型安全风险。

为了帮助开发者、企业把握 LLM 应用的安全设计要点,OWASP 在 2023 年正式发布了

OWASP Top 10 for Large Language Model Applications
LLM 应用的十大安全风险列表

本文将对该列表进行全面中文解读,帮助你打造更加可信、可控、可防的 AI 应用系统。


一、什么是 OWASP LLM Top 10?

OWASP (Open Worldwide Application Security Project)是一个公益性的安全组织,最著名于其发布的《Web 应用十大安全风险》。

随着 LLM 技术大规模应用,传统的 Web 安全统计无法准确归纳新型风险。OWASP 因此新增了这个 LLM 特殊版本,选取了 10 项最关键、最普遍、最害的 LLM 应用安全问题,有点像是 AI 的 OWASP Web Top 10 版本。


二、OWASP LLM Top 10 整体列表

编号 风险名称 简述
LLM01 Prompt Injection (提示注入) 改写 prompt 来操纵模型行为
LLM02 Insecure Output Handling (不安全的输出处理) 直接执行生成内容
LLM03 Training Data Poisoning (训练数据中毒) 在模型训练阶段添加恶意内容
LLM04 Model Denial of Service (模型 DoS) 利用性能怪异后分费模型资源
LLM05 Overreliance on LLMs (过度依赖) 对 LLM 输出缺乏检查
LLM06 Insecure Plugin Design (插件设计不安全) 插件无权限/无验证
LLM07 Sensitive Information Disclosure (漏露敏感信息) 模型无意输出内部信息
LLM08 Insecure Authentication (验证无效) 用户身份未验证
LLM09 Insecure Model Supply Chain (供应链风险) 使用未经验证的模型/插件
LLM10 Model Theft (模型窃用) 模型被漏/复制/欺骗使用

三、安全设计推荐和防御思路

  • Prompt 防止注入:重构 prompt 模板,不使用用户内容直接应用于 prompt
  • 输出不直接执行:加入验证/清洗/编译无害化处理
  • 数据与模型清温分离:打印的输出应有内容输出缓冲和平行校验
  • 插件设计尽量最小权限化,尽可能考虑添加终端校验/身份排查
  • 访问附加 API Gateway 限流,防止被盗用或拉波

四、结言:将 LLM 应用经营在可控范围内

第一次 AI 大规模应用演变正在不缓不频地发生,我们应该不仅观測于技术功能和体验,更要把握优秀的 “安全思维”,精精不了经营好每一个 LLM 应用辅助分支。


Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐