基于条件干预的大模型推理时防御
# 基于条件干预的大模型推理时防御技术教学文档
## 1. 技术背景与核心概念
### 1.1 大语言模型的表示特性
- 大语言模型(LLMs)在激活中包含了丰富的概念表示
- 这些表示可以对应不同层次的抽象概念
- 模型通过激活模式而非显式存储来处理高级概念
### 1.2 激活引导(Activation Steering)技术
- 通过干预模型内部激活来引导输出
- 主要方法包括:
- 添加偏置向量
- 修改特定神经元的激活值
- 在特定位置注入控制信号
### 1.3
2025-08-29 13:01:26
0