one121121 最近的时间轴更新
one121121

one121121

V2EX 第 3447 号会员,加入于 2010-12-04 12:50:07 +08:00
one121121 最近回复了
@jones2000 我的项目的价值是在不需要 root 权限、不修改系统的前提下,在语义层面理解操作意图,两者是不同层次的防御,可以互补,不是非此即彼。你说的系统层 hook 方向确实更底层更彻底,这是防御纵深里的另一层。但是我的项目的定位不是替代它,而是在应用语义层做补充——系统调用层看不出「读取 .env 然后编码发送」是一条攻击链,但语义层可以。两层结合才是完整的防御体系。你提的网络层脱敏思路也很有意思,后续可以考虑作为一个集成方向。
@vt2rexm 这个问题问到点上了。用语言模型兜底确实存在被对抗样本绕过的风险,这不是能完全否认的。
但当前架构的设计思路是分层防御:规则引擎是第一道关,不依赖语言模型,纯模式匹配,攻击者没办法用提示词注入绕过它;语言模型只在规则判断不确定的模糊地带才介入,不是唯一防线。
你说的场景也正是这个方向下一步需要研究的核心问题之一。目前没有完美答案,这也是为什么我把它定位成研究框架而不是生产级安全产品。如果你对这块有想法欢迎开 issue 讨论。
@blueskeay 刚针对这个场景做了更新,现在支持增量感知——会对比前后两次请求体,只对新增的 token 部分做安全评估,避免重复分析整个上下文。欢迎试试看,有问题随时反馈。
@blueskeay 目前没有专门针对这个场景做缓存优化,AgentTrust 本身是无状态的拦截层,每次请求独立处理。
你说的这个场景如果接入了 Anthropic 或 OpenAI 的提示词缓存,缓存命中的部分理论上不重复计费,但 AgentTrust 这层目前没有感知缓存状态的机制,也没有做增量 token 的差分识别。
这其实是个值得做的方向 感谢提出这个问题!!!
@libii 去看了一下,确实有不少相似的地方!我这边目前侧重的是规则引擎 + 语言模型兜底的混合判断,以及跨会话的攻击链检测。你用本地模型做拦截这个思路很有意思,延迟和隐私方面会有优势。有机会可以交流一下。
@beyondstars 对,他们确实有逐步审批模式,但有两个场景它处理不了:一是自动化流水线里没有人在盯着批准;二是单步看起来完全正常、人也会批准,但跨多步组合起来是攻击链。AgentTrust 主要解决的是这两块,尤其是第二个——语义层面的多步风险识别,纯审批模式识别不出来。
@ryd994 那我没什么好说的,就祝你用 ai 越来越厉害吧
@iorilu 可以在网上搜到
@ryd994 也就是说你愿意在被公司开除的情况下,留下你的技术,你的技能,你的沟通方式继续为这个公司免费打工?就算是都属于公司财产,我们也要学会保护自己的利益,你的技术技能是你吃饭的本事,你不能免费给任何人
2 天前
回复了 YanSeven 创建的主题 Claude 怎么感觉 ClaudeCodeMax 5X 额度变少了
正常 5X 额度大概有多少?
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5921 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 03:36 · PVG 11:36 · LAX 20:36 · JFK 23:36
♥ Do have faith in what you're doing.