面向大模型的生成-利用式越狱攻击
# 面向大模型的生成-利用式越狱攻击:教学文档
## 1. 大模型安全背景
随着大语言模型(LLM)在各种应用场景中的广泛使用,其潜在安全风险日益凸显。开放源码的语言模型尤其令人担忧,因为其代码和训练数据是公开的,任何人都可以访问、修改甚至恶意利用。
## 2. 大模型安全基础措施
### 2.1 对齐(Alignment)
- 目的:使模型行为与人类价值观和意图保持一致
- 方法:通过RLHF(Reinforcement Learning from Human Feedback)等技术
2025-08-29 06:32:16
0