逍遥云初

论文链接：https://arxiv.org/abs/2604.01487

团队：Carnegie Mellon University（Prince Zizhuang Wang, Shuli Jiang）

提交日期：2026.04.06（v2）

当 AI Agent 从「单机工具」变成「社交网络中的持久化代理人」，隐私保护会遇到什么根本性的新挑战？这篇 CMU 论文首次系统性地评估了人类中心 Agent 社交网络中的隐私风险，并直接点名了 OpenClaw 作为现实案例。

传统 Agent 隐私研究聚焦于单 Agent 场景——一个 Agent 持有用户信息，外界试图提取。但现实正在变化：OpenClaw 等框架让 Agent 能跨消息、日历、社交媒体自主运作；Moltbook（首个 Agent 社交网络）上线数周就积累了 160 万注册 Agent。

在人类中心的 Agent 社交网络中，每个用户由一组领域专家 Agent 团队服务（健康 Agent、财务 Agent、社交 Agent 等），这些 Agent 需要跨域协调、代理用户与他人沟通、与其他用户的 Agent 交互——而这些协调过程会产生前所未有的隐私泄漏压力。

论文构建了 300+ 场景的基准测试，覆盖 7 大类别，基于合成用户画像（6 个领域、5 级敏感度标签）和有向社交图谱（4 级亲密度）。

实验数据（8 个模型，L0 无隐私指引）：跨域泄漏率（CDLR）大约是调解通信（MLR）和跨用户（CULR）的 2-3 倍。原因在于团队内协调时，Agent 有更强的「帮助用户完成任务」动机，这会压倒隐私保护的考量。

群聊泄漏率与双边调解相当，Hub-and-Spoke 通过协调者瓶颈产生中等泄漏，竞争场景因对抗压力反而泄漏最低（Agent 变得更谨慎）。

🔑

关键洞察：这说明隐私风险的本质不在于「外部攻击」，而在于「内部协调压力」。你的 Agent 团队越想帮你完成任务，就越容易跨域泄漏你的敏感信息。

这是论文最精彩的发现。研究者设计了三级隐私指令梯度：L0（无指引）、L1（显式隐私规则）、L2（完整防御 = 域边界提示 + 信息抽象模板 + 最小信息原则）。

结果：L1 和 L2 确实降低了完全泄漏率，但代价是引入了新的失败模式——抽象悖论：当你教 Agent 如何「抽象化」敏感信息时，它反而会更多地讨论这些信息。在 L0 下本会保持沉默的场景，L1/L2 的 Agent 会开始谈论敏感话题，只是用了「抽象化」的方式。

用论文的话说：privacy instructions that teach agents how to abstract sensitive information paradoxically cause them to discuss it more。

🔑

关键洞察：这对我们设计安全规则有直接启示——在 AGENTS.md 中教 Agent 如何脱敏（如「提到薪资时用模糊表述」）可能会适得其反，因为 Agent 学会了脱敏规则后会更频繁地触发相关内容的讨论。更好的策略可能是：只在 Agent 确实需要跨域分享时才注入脱敏指引，而不是预先植入。

8 个模型的实验结果一致表明：即使在 L2 完整防御下，跨域泄漏率仍然显著高于其他场景。这意味着仅仅靠修改 prompt 无法从根本上解决 Agent 社交网络的隐私问题。

论文呼吁需要超越 prompt engineering 的新方法——可能包括架构级的隐私隔离、动态权限系统、或者基于形式化验证的边界检查。

跨域协调是最大风险点：当你的 Agent 需要把日历信息传给消息 Agent、或者把文档内容传给日历 Agent 时，这就是「跨域协调」。应该在架构层面限制跨域信息流，而不是依赖 Agent 自觉。
脱敏规则要「按需注入」而非「预先植入」：不要在 CLAUDE.md/AGENTS.md 中写一堆脱敏模板让 Agent 学习。应该在 Agent 触发跨域操作时，动态注入最小化的脱敏指引。这就是 Harness Engineering 的「渐进式披露」在隐私领域的应用。
群聊场景需要结构性隔离：论文发现群聊泄漏率与双边通信相当——这意味着 OpenClaw 的「群聊隐私门控」策略（群聊中拒绝返回个人隐私数据）是正确的架构选择，但需要更系统化地覆盖所有敏感操作。
亲密度分级值得落地：论文的 4 级亲密度标签（close/friend/acquaintance/stranger）可以映射到 AGENTS.md 的权限分级——不同亲密度的人看到不同粒度的信息。
评估指标要超越「是否泄漏」：论文引入了 Information Abstraction Score（IAS）衡量 Agent 的抽象化质量。这意味着安全评估不应只看「有没有泄漏」，还要看「泄漏了多少细节」。

论文直接点名了 OpenClaw，而我们的安全架构恰好在多个维度上与论文的发现呼应：

但论文的「抽象悖论」指出了我们的一个潜在漏洞：如果我们在 AGENTS.md 中教 Agent 如何脱敏（比如详细列出脱敏规则和替换映射），反而可能让 Agent 更频繁地接触和讨论敏感信息。更优的策略是：最小化预植入的脱敏规则，只在必要时动态注入。

AI Agent 社交网络的隐私暗面：AgentSocialBench 论文深度解读