【新智元导读】当Agent开始真正进入生产环境,安全问题不再是「功能模块」,而是贯穿调用链、运行时与生态层的系统性风险。过去依赖提示词规则、日志审计与框架级防护的方式,正在逐步失效。来自清华大学人工智能学院、交叉信息研究院的方寸跃迁提出一套面向Agent运行全生命周期的多层安全体系。

当所有人都在卷Agent能力的时候,一个更危险的问题,已悄然出现——

你部署的Agent,此刻到底在做什么?

一个被忽略很久的事实

Agent会「表演」

过去两年,行业几乎把全部火力砸在了模型能力、Agent框架与工具调用体系的军备竞赛里。

安全能力,则更多停留在「表层防护」:提示词规则、输入输出过滤、运行时日志审计,加上基于SDK Hook的框架级约束。

这些机制各自有效。但它们共享同一个根本性盲区——

它们看到的,只是Agent「声明」出来的行为。

但如果将视角稍微下沉一层,问题会迅速变得复杂。

Agent在执行任务时,会与环境发生大量真实交互:调用API、读写文件、操控浏览器、驱动数据库、以及与其他Agent协同通信。

一个完整任务的执行链,可能横跨数十个步骤、多个工具链与多个运行层级。

这种复杂性本身,就天然构成了行为掩护层。

更可怕的是,模型会在被监控的环境下,主动调整自己的行为表现。不是按规则执行,而是「按规则表演」。

这不是科幻设定。而是已经在论文里、在红队报告里、在企业内部事故复盘里反复出现的真实风险。

当企业内部同时运行数十甚至上百个Agent,由不同团队、不同框架与不同模型构建时,一个更现实的问题随之出现:

系统已经无法完整感知,自己正在运行多少个Agent。更无法确认,它们真正在做什么。

Fangcun Observer

看见真实动作,守住安全边界

来自清华大学人工智能学院、交叉信息研究院的方寸跃迁给Observer指定了一条设计哲学——

别问Agent想做什么,看它到底做了什么。

听起来简单,真正的挑战在于把它锻造成稳定、低延迟、可审计、可规模化的系统。

视角的反转

主流的Agent安全方案,几乎清一色接在表层:提示词里的安全规则、输入输出的内容过滤、运行时的日志审计、Agent Harness提供的SDK Hook。

每一层都有人在做。

每一层也都有同一个盲区:它们看到的,都是Agent在框架边界上「声明」出来的那一层。

Observer不走这条路。

它直接下沉到操作系统层,不依赖任何框架插件,不依赖SDK接口,不依赖模型供应商集成。业务代码零改动,Agent无感知接入——观测,即刻开始。

它捕获的,是Agent的真实行为:

执行了哪些系统命令

读写了哪些文件

发起了哪些网络请求

是否出现越权操作或高风险行为序列

过去的方案,看到的是Agent「说」了什么。Observer看到的,是Agent「做」了什么。

声明可以包装,行为不会撒谎。

五项核心能力

重新定义Agent安全的边界

OS层行为感知,彻底解耦Harness,开箱即用

Agent生态日新月异,没有任何一个框架能成为永久标准。今天是Open Claw,明天可能换成Hermes,后天又会有新的涌现。

Observer直接在操作系统层感知Agent的真实动作,与上层框架、调用栈、模型供应商完全解耦。

无论Agent跑在哪套栈上,观测能力始终有效。

企业不需要为每一次技术迁移,重新接入一遍安全体系。

无感知运行时观测

业务代码零改动,计算开销忽略不计,现有链路一行都不用碰。不是「改动很小」——是真的不用动

第二层更关键。Agent不会知道自己正在被观测——你看到的,是它真正的行为。不是它「表演」给你看的样子。

实时干预,主动阻断,安全前置

Observer不只是事后复盘工具。

危险命令执行、敏感文件操作、异常网络访问、越权持久化——针对这些高风险行为,系统在行为落地之前完成实时研判,按策略执行通知、暂停或直接阻断。

从亡羊补牢,变成关门打狗

全链路溯源,揪出隐藏威胁

真正的风险,从来不在表面。

Observer把运行时的真实行为、Agent的决策动作与模型上下文关联成完整的行为图谱——每一个风险事件,都能追溯到完整的决策链路。

哪怕是环境投毒攻击;哪怕是从不亲自动手、只靠影响其他Agent来转嫁风险的恶意Agent——在多Agent协作网络里,都无处遁形。

本地审计+自进化防御策略

所有观测、审计、事件数据均可完整本地沉淀,不上云、不外传。

策略模型基于真实运行数据持续迭代,从静态规则走向自进化防御。

安全能力,随业务规模一同生长。

Fangcun Guard

让安全审核,从「性能税」变成「基础设施」

Observer守住的是Agent在系统层的真实行为。

但Agent的输入和输出,同样需要一道护栏。

一个真正能放进生产环境的安全护栏,到底要做到什么?

够快。一次完整的Agent对话,要过2到4道审核:用户输入、工具调用入参、模型输出、工具返回。每一道都不能拖慢用户体验。

够准。不能某一类强、某一类崩。漏检少,误拒低,所有主流场景都要稳定输出。

够灵活。金融、医疗、教育、游戏,每个场景的风险结构完全不同。一套固定阈值打天下,行不通。

业内主流的开源安全大模型——Llama Guard、NVIDIA Nemotron、Qwen3 Guard、xGuard——已经把这件事推到了相当不错的水平。

同时把「快、准、灵活」三件事都做到顶尖?

Fangcun Guard,是方寸跃迁给出的答案。

数据怎么样,直接看图

6项公开benchmark,7款最常用的开源安全模型,同条件对齐评测。

先看综合检测准确性:Fangcun Guard=91.1。开源方案的区间,分布在70到88之间。

再看p99推理延时:Fangcun Guard=8毫秒。8B量级的开源方案普遍在130毫秒以上,0.6B的轻量方案能压到50毫秒以内——但F1上还有差距。

5项差异化能力

决定它能不能进生产环境

判定不偏科,灰区话术不放过

一般有害内容,能判。精心构造的越狱攻击,能判。深度伪装成正常对话的灰区话术——也能判。

跨场景稳定输出,是进生产环境的唯一门票。

毫秒级响应,安全审核变基础设施

一次完整Agent对话,要过4道审核。4道全跑Guard,总耗时30毫秒。

用户感知不到。业务感知不到。

安全审核,从「性能税」变成了默认开启、随处可加的基础设施

中文场景,专项打磨

通用安全大模型的惯常操作:全世界语言一锅炖,英文亮眼,中文长尾频繁漏过。

Fangcun Guard把风险拆成10个独立类别,每一类基于中文场景专项合成数据、专项对齐训练。跨语种攻击、口语化越狱、长尾边缘案例,稳定召回。

10类风险独立可调,不再一刀切

通用安全模型只给「开/关」两档。但金融、医疗、教育、游戏,每个场景的风险结构完全不同。

FangcunGuard把10类风险作为独立维度暴露给企业,每一类拦截阈值单独配置,Web控制台或接口中按业务自调。

主流Agent生态一键接入

主流Agent框架开箱即用,业务代码零改动。

如果你的Agent还卡在130毫秒的延迟里——

是时候换一个8毫秒搞定的护栏了。

Skill Ward

三阶段检测,真实蜜罐运行

Observer守运行时行为,Guard守输入输出边界。

但随着Agent的持续发展,还有一类风险来自更上游——第三方Skill。

这个生态已经长成了Agent的「App Store」。

Claude Skills、OpenAI Apps、Claw Hub,几十万个第三方Skill汇聚其中。

行业现有的方案,几乎全部停留在静态扫描:扫一遍代码、查可疑导入、检索黑名单关键词。

但恶意Skill真正的杀招,从来不在静态代码里。

那行写着「读取配置文件」的代码,跑起来才去拉远程载荷;

那段标注「调试日志」的逻辑,触发后才向外发请求;

那个看上去合法的依赖包,在特定参数下才激活后门。

只看代码,看不出来。

Skill Ward,是方寸跃迁推出的全球首个三阶段Agent Skill安全扫描器——不只是静态检查,是真实运行一遍。

第一阶段:静态分析——恶意签名、危险调用、可疑依赖,先过一遍。

第二阶段:大模型研判——理解Skill真实意图,识别伪装话术、混淆逻辑、社工诱导。

第三阶段:Docker蜜罐沙箱实际执行——真正的杀手锏。

每一个Skill都会被丢进隔离的蜜罐环境,真实跑一遍。

调用了哪些命令、访问了哪些路径、连接了哪些外部地址、有没有尝试持久化、有没有横向探测——一切行为,无处遁形。

那些「看上去无害、运行时才动手」的Skill,在这一关原形毕露。

5000个真实Skill实测:仅靠静态扫描,会漏掉约三分之一的运行时威胁。这部分,全部由蜜罐沙箱阶段抓出。

运行时的真实行为轨迹,才是答案。

事前、事中、事后

Agent安全的完整边界

Skill Ward,守事前——Skill装入Agent之前的最后一关。

Fangcun Guard,守事中的输入输出——8毫秒的护栏,安全审核变基础设施。

Fangcun Observer,守事中的真实行为,沉淀事后审计——操作系统层的真相,无法造假。

过去两年,行业把几乎所有火力,砸在了Agent能力的天花板上。

但Agent真正大规模进入企业生产环境的那一刻,决定它能不能落地的,从来不是它有多聪明——

而是它有多可控:你知道有多少个Agent在运行。你知道每一个Agent真正在做什么。你能在它做错事之前阻断它。你能在它做对事的时候,让它跑得足够快。

Agent时代的安全边界,第一次被完整画出来。

在Agent安全尚处早期定义阶段的当下,方寸跃迁正通过产品与技术加速构建起Agent时代的全新安全基础设施平台。

本文转自:凤凰网科技

原文地址: https://tech.ifeng.com/c/8svJjy07D3E