基于“灰盒”蒸馏的大语言模型攻击研究
# 基于“灰盒”蒸馏的大语言模型攻击教学文档
## 1. 攻击概述
### 1.1 基本概念
**灰盒蒸馏攻击**是一种结合模型窃取与拒绝服务攻击的组合式攻击方法。攻击者通过蒸馏技术(模型窃取)复制目标模型,在本地环境中进行对抗样本挖掘,然后将有效的攻击载荷用于攻击原始模型。
### 1.2 攻击原理
- **模型窃取(蒸馏)**:通过目标模型的输入输出对训练一个本地替代模型
- **本地攻击测试**:在替代模型上寻找有效的攻击载荷
- **实际攻击**:将成功载荷用于攻击原始目标模型
2026-01-12 12:05:05
0