诱饵不能无处不在:绘制MITRE ATTCK中的欺骗面

诱饵不能无处不在:绘制MITRE ATTCK中的欺骗面
大家读完觉得有帮助记得关注和点赞摘要网络欺骗研究通常假设诱饵可以放置在攻击者行为发生的任何地方。本研究在MITRE ATTCK v18.1框架下检验了这一假设。我们引入了一个用于基础设施欺骗的四标准评分体系并将其应用于全部250个ATTCK技术。该评分体系评估防御者控制的诱饵是否可被放置、攻击者是否可能与之交互、该交互能产生何种情报以及该交互是否能可靠地指示恶意行为。结果显示欺骗面是稀疏的只有80个技术32%允许放置一个攻击者有可能接触到的诱饵。对于其余170个技术在攻击者的路径上不存在可以被伪装成诱饵的防御者控制资产。在这80个技术中诱饵的放置模式分为两种我们称之为“扫描”Sweep和“搜寻”Seek。在“扫描”模式中攻击者广泛地探测范围内的资产并在该活动中偶然遇到诱饵。在“搜寻”模式中攻击者寻找特定类型的资产并与一个伪造版本进行交互。这些模式给出了一个简单的放置规则诱饵要么必须位于扫描路径上要么必须模仿被搜寻的资产。我们还表明诱饵通常具有有用的情报潜力但攻击者是否会与其交互以及该交互是否能可靠地指示恶意这两点都存在差异。我们发布了评分体系、决策规则以及针对每个技术的评估作为未来欺骗研究和部署规划的可审计基线并表明不能假设基础设施诱饵适用于所有攻击者行为。1 引言网络欺骗研究通常假设诱饵可以放置在攻击路径的任何位置[26, 20, 23, 1]。博弈论方法依赖于此来创建简化的现实模型以研究最优蜜罐放置策略[23, 3]。自动化欺骗框架通常研究针对网络杀伤链不同阶段的参与行动而不首先检查攻击者的技术是否真的可以被欺骗[22]。研究人员创建攻击图模型将诱饵视为抽象的数学实体可以简单地放置在任何一个预测的网络节点或边上[26, 1]。诸如MITRE D3FEND框架[18]和MITRE Engage框架[19]等行业成果也依赖于此。这一假设尚未得到系统性的检验。我们认为在社区能够成功设计新的欺骗技术或通过算法优化诱饵放置之前我们必须首先绘制出可操作的欺骗面诱饵在攻击者路径中可以合理放置的位置、它们能引发的交互以及这些交互在实践中会产生什么信号。当一个技术的执行使攻击者接触到防御者可以伪造、植入并放置在攻击者路径上的资产时该技术就允许使用诱饵。绘制这一面也是基于欺骗的主动防御的前提防御者如果不先知道接触点存在哪里就无法决定如何通过欺骗与攻击者交战。本文旨在通过两个研究问题RQ来系统性地检验这一假设哪些攻击者行为允许使用诱饵以及对于那些允许的这些诱饵会产生什么信号RQ1以及为什么一些攻击者行为允许使用诱饵而另一些则不允许RQ2。为了回答这些问题我们使用了一个具体的攻击者行为目录MITRE ATTCK v18.1 [17, 2]。ATTCK基于真实世界的观察将 adversary 行为组织为14个战术阶段下的250个技术。为了回答RQ1我们开发了一个四标准评分体系并将其应用于全部250个ATTCK v18.1技术。这四个标准评估i. 是否可以放置诱饵可行性ii. 攻击者是否会与之交互交互iii. 该交互会产生什么信号情报产出以及 iv. 该信号是否能可靠地指示恶意恶意保真度。为了回答RQ2我们分析了结果分数以识别出区分允许使用诱饵和不允许使用诱饵的技术的模式。在250个ATTCK技术中只有80个32%允许使用诱饵。对于其余170个无法放置诱饵来捕获攻击者的行为。在这80个技术中诱饵的放置模式分为两种我们称之为“扫描”Sweep和“搜寻”Seek。在“扫描”模式中诱饵位于攻击者会触及范围内所有东西的路径上攻击者无需主动寻找就会遇到它。在“搜寻”模式中诱饵模仿了一个被寻求的资产因此正在向该资产类型移动的攻击者会发现它。图1一目了然地展示了本文的脉络。假设诱饵可以放置在攻击路径的任何地方这一初始问题引出了上述两个研究问题。每个问题都通过一种方法得到回答并产生具体结果。它们共同展示了诱饵可以捕获哪些攻击者行为以及应将其放置在何处才能生效。图1本文各部分如何衔接。从问题出发该图追溯了每个研究问题通过其方法到其结果的过程。本文的贡献如下一个四标准评分体系使防御者能够在部署前评估哪些ATTCK技术允许使用诱饵以及它能提供何种检测价值。一个“扫描-搜寻”规则取代了临时性的诱饵放置。诱饵必须位于扫描路径上或模仿攻击者正在寻找的资产否则将不会被触及。一个开放的、覆盖整个ATTCK的诱饵评估包含每个技术的分数和理由作为可供他人完善和构建的基线。本文其余部分结构如下第2节回顾相关工作。第3节定义评分体系、打分程序、专家研究和模式识别程序。第4节展示并解释研究结果。第5节讨论局限性和未来工作。第6节总结。2 相关工作在攻击者路径中放置虚假资产以检测和研究入侵的概念可以追溯到Hollingworth 1973年关于伪缺陷和诱捕模块的工作[13]。首个可操作的欺骗系统在十五年后出现[9, 5]此后该领域已发展到包括蜜网、蜜令票、蜜文件、诱饵凭证以及LLM驱动的自适应系统[27, 8, 24, 25]。虽然诱饵的种类已经扩大但ATTCK中哪些攻击者行为允许使用诱饵的问题在文献中基本上仍未得到充分研究[11, 10, 14, 20]。在网络欺骗领域大量工作研究诱饵放置问题给定一个网络、一条攻击路径或一个防御者目标应将诱饵放置在哪里以拦截攻击者这些方法使用博弈论、攻击图和相关优化方法来决定欺骗资产应放在哪里[23, 3, 1]。然而诱饵通常被视为可以添加到模型中节点、边或路径上的对象。虽然最近的工作承认假设每个技术都存在诱饵是一个重大局限性但它们并未进一步评估特定攻击者行为在实践中是否真的可以被欺骗[26]。当前的放置工作回答了诱饵应该放在哪里但没有回答是否可能。最近的调查反复指出网络欺骗缺乏标准化的评估指标[20, 11, 21]。Beltrán-López等人[4]表明即使是最全面的分类法也经常忽略实施的可行性。网络安全的其他领域通过结构化的评分或分类方案使专家判断明确化从而解决了类似问题。例如CVSS[16]通过明确的指标减少了不一致的漏洞评分而STRIDE为威胁建模提供了结构化词汇表[15]。虽然最近的系统化知识SoK综述[6]表明网络欺骗社区越来越有能力应用结构化评分体系来系统地评估文献但欺骗防御仍然缺乏一个等效的可操作工具来评估实施可行性。近期工作越来越多地将网络欺骗与MITRE ATTCK框架联系起来以实现自动化主动防御并规划如何与攻击者交战[7, 2]。Sajid等人[22]通过将恶意软件行为映射到特定的ATTCK战术生成动态欺骗行动手册。两个行业框架D3FEND[18]和Engage[19]都依赖ATTCK作为防御规划的起点。D3FEND将攻击者技术与相关的防御响应联系起来。Engage则组织防御者可以用来塑造攻击者行为的欺骗、拒绝和交战活动。这些面向行动的框架帮助防御者决定如何应对 adversary 技术。然而它们没有首先询问该技术是否允许在攻击者路径中放置防御者控制的诱饵。没有这个诱饵这些框架所规定的基于欺骗的行动就没有交互对象来做出响应。总之先前的工作已经构建了更多类型的诱饵研究了将它们放在哪里并使用ATTCK来规划防御行动。仍然缺失的是一个覆盖整个ATTCK的检查以确定每个攻击者技术是否允许在攻击者路径中放置防御者控制的诱饵以及这样的诱饵会揭示什么。本文旨在填补这一空白。3 方法论我们的方法论包含两个步骤。首先我们将一个四标准评分体系应用于ATTCK框架以生成一个欺骗面评估该评估涵盖了诱饵可以放置在哪里、它们可以引发什么交互以及它们可以产生什么信号RQ1。其次我们分析了评估结果以识别出解释为什么一些攻击者行为允许使用诱饵而另一些则不允许的模式RQ2。判断一个技术是否允许使用诱饵需要专家判断因此我们在打分前固定了决策规则并将相同规则应用于所有250个技术。这使得每个分数都是明确的并确保了整个矩阵评估的一致性。3.1 范围和定义我们在ATTCK中评估一种欺骗形式基础设施欺骗定义为部署在防御者基础设施内部或邻近、受防御者控制的技术性诱饵。我们排除了信息战、虚假信息活动、进攻性反欺骗以及部署在防御者基础设施外部的欺骗因为这些依赖于防御者无法控制或可靠观察的外部参与者和条件。我们独立地对每个ATTCK技术进行评分假设一个能够执行该技术所描述行为的 adversary。这意味着我们评估的是原则上什么是可能的而不是某个特定部署是否会成功。分析的单位是单个ATTCK技术。资产是用于执行技术的任何资源例如主机、账户、凭证或云对象。防御者可控资产是防御者可以在没有攻击者合作的情况下创建和管理的资产。只有这些资产才能成为诱饵。攻击路径是 adversary 为实现目标而跨越各个战术所执行的一系列技术。只有位于此路径上的诱饵才能被触及。因此我们将每个技术作为这样一个路径上的潜在点进行评分执行该技术是否使攻击者接触到防御者可以转变为诱饵的资产。当技术仅涉及攻击者内部计算或防御者无法观察或控制的资产时例如混淆自己的代码或修改其已控制主机上的时间戳则该技术被排除在范围之外。附录0.A中提供了资产类型的完整列表。3.2 评估标准为了回答RQ1我们将四标准评分体系应用于全部250个ATTCK v18.1技术。该评分体系包含四个标准可行性、交互、情报产出和恶意保真度。可行性充当门控条件如果一个技术不提供可供模仿的防御者可控资产则不对其余标准进行评估。然后按顺序应用这些标准图2每个标准的评估都假设前一个标准成立。每个标准的分数反映了一个配置良好的诱饵在最佳情况下可能产生的结果。每个标准描述如下可行性该技术是否依赖于任何可以作为诱饵被现实地模仿的资产交互该技术是否使得攻击者很可能与诱饵进行交互交互意味着攻击者主动与诱饵接触产生可观察的数据。情报产出与诱饵的交互是否有潜力产生战略、战役、战术或技术情报实际产出取决于部署设计和测量方式这不在本文讨论范围内。恶意保真度如果攻击者与诱饵交互该信号能在多大程度上可靠地指示恶意意图而非良性活动图2四标准评分体系。仅当上一个标准未得分为“否”时才评估下一个标准第一个“否”得分即终止评估。3.3 打分程序所有四个标准都使用一个四点的强制选择量表没有中立中间点。四个级别是“是”、“基本是”、“基本否”和“否”。移除中立选项强制对每个标准做出清晰判断并避免了默认的“也许”或“视情况而定”考虑到ATTCK在很大程度上依赖于专家解释这是一个真实的风险。每个标准都有一个指南在打分前固定描述了四个级别各自的含义。表1显示了完整的指南。这些级别构成了一个从“是”到“否”的有序量表。当证据同等程度地符合两个相邻级别时我们分配较低的那个更接近“否”。表1四个评分标准的打分指南。分数可行性交互情报产出恶意保真度是防御者可以完全伪造和控制目标资产作为诱饵并且它能令人信服地响应攻击者的行动。该技术自然地引导攻击者找到诱饵。交互是作为该技术的直接后果发生的。交互直接产生可归因于诱饵的战略、战役、战术或技术情报。设计上不期望有合法交互。唯一合理的触发因素是攻击者行动因此误报率接近于零。基本是目标资产可以被模仿但难以使其令人信服。可能经不起仔细审查。交互可能发生但不确定取决于诱饵的定位、配置或攻击者的工具。交互能产生情报但需要与其他数据关联、添加上下文或进一步分析。交互强烈指示恶意。少数良性活动可能触发它但这些情况是可识别和可过滤的。基本否目标资产只能被部分模仿为诱饵。难以逼真地模拟且仅在有限条件下有效。交互是可能的但不太可能需要攻击者具备特定知识、不寻常的时机或非典型的选择。交互会产生一些数据但过于通用或模糊没有显著的进一步分析则无意义。交互可能指示恶意但许多触发因素是良性的或模糊的。区分它们很复杂因此信号有用但不能独立使用。否该技术没有可以被制造和作为诱饵操作的防御者可控目标资产。不存在攻击者到达诱饵的合理路径。遵循该技术的攻击者不会与此诱饵交互。没有情报产出。可观察数据无法提供对攻击者行为、身份或意图的洞察。良性活动会常规性地触发此诱饵。交互无法区分攻击者。所有250个技术均由单一评估者按照每个战术内的出现顺序进行评分使用以下步骤阅读ATTCK技术描述和程序示例这些示例展示了该技术在现实世界攻击中是如何被观察到的。识别技术中涉及的资产。对于每个资产确定防御者是否可以伪造、控制或检测它。按照打分指南依次对每个标准进行评分。记录标准评级和理由以供后续处理和分析。举个例子考虑暴力破解T1110。可行性登录服务可以被转变为诱饵所以是。交互登录诱饵自然吸引试图猜测每个可到达账户密码的凭据猜测工具所以是。情报产出命中诱饵直接揭示可归因于诱饵的可靠战术和技术情报所以是。恶意保真度自动化扫描器和配置错误的工具可能会针对开放服务产生一些认证噪声但在基本过滤后信号质量仍然很高所以给“基本是”。这些分数捕捉的是一个技术是否具备欺骗的前提条件而不是某个特定部署是否会成功。高分数意味着机会在原则上是存在的。实际部署是否成功取决于实施和操作环境。3.4 专家研究在我们的评估之后我们进行了一项小型专家研究有两个目的。首先我们想看看除了主要作者之外的人是否能够根据书面说明应用该评分体系。其次我们想衡量专家在给相同技术打分时的一致性程度。我们通过便利抽样从我们的专业网络中招募了八位专家。这些专家从事网络欺骗、威胁情报和安全运营方面的工作。每位专家独立地使用四个评分标准对五个ATTCK技术进行评分T1110暴力破解、T1132数据编码、T1213来自信息库的数据、T1218系统二进制代理执行和T1485数据销毁。我们选择这些技术是为了同时包含明确和模糊的案例。每次会话控制在45分钟以内。由于每个技术需要5到10分钟来评分我们将研究限制为每位专家五个技术。这样每位专家产生20个分数总共160个专家分数。专家们口头同意进行录音以及匿名化和汇总报告。在一对一通话中每位专家收到一份单页的评分体系摘要和官方的ATTCK描述。专家们在独立选择分数的同时大声解释他们的推理过程。打分结束后我们进行了一个简短的汇报以收集关于模糊措辞、困难决策以及评分体系中难以应用部分的反馈。我们以两种方式分析了这项研究。首先我们审查了文字记录以查看专家是否能够应用评分体系并找出他们在哪里对标准或技术有不同的解读。其次我们对分数进行了数值比较。由于目标是测试评分体系是否能在不同评估者之间产生可比较的判断我们还将主要作者对相同五个技术的现有分数纳入了分析。我们将作者视为另一位评估者而不是作为答案标准。这样我们总共有九位评估者并形成了一套完整的评级所有九位评估者对五个技术的所有四个标准都进行了评分。由于评分体系的分数是有序的我们衡量了完全一致性和接近一致性。完全一致性询问评估者是否给出了相同的分数。接近一致性询问他们的分数差距有多大因为“是”和“基本是”之间的分歧比“是”和“否”之间的分歧要小。我们报告了完全一致性、有序一致性以及Krippendorff的序数alphaα这是衡量多个评估者在有序量表上一致性的标准指标[12]。3.5 识别放置模式为了回答RQ2我们根据可行性分数将技术分为两组那些得分为“否”的和那些未得分为“否”的。对于每组我们审查了在可行性评分期间识别的防御者可控资产并分析了攻击者将如何与诱饵交互或者为什么不可能有这样的交互。我们根据识别出的交互类型创建了分组。产生的分组在第4节中报告。4 结果与讨论本节展示并解释研究结果。我们首先绘制了ATTCK中的欺骗面并显示诱饵可行性是稀疏的。然后我们解释了为什么一些技术允许使用诱饵而另一些则不允许。最后我们以专家研究的结果和关于评分一致性的讨论结束。4.1 ATTCK中的欺骗面ATTCK中的欺骗面是稀疏的。在250个ATTCK v18.1技术中只有80个32%在可行性上得分不是“否”。对于其余170个技术68%在攻击者的路径上无法放置防御者控制的诱饵。在允许使用诱饵的80个技术中58个在可行性上得分为“是”12个得分为“基本是”10个得分为“基本否”。这意味着在整个ATTCK中欺骗最多可以针对目录化技术的32%进行部署。这个欺骗面也是不均匀的。允许使用诱饵的技术集中在少数几个战术中而不是均匀地分布在整个矩阵中。分布情况如表2所示欺骗面如图3所示。五个战术包含了80个允许使用诱饵的技术中的52个发现22/34、执行9/17、凭证访问8/17、收集8/17和初始访问5/11。发现的数量最多有22个技术。在另一端有三个战术没有任何允许使用诱饵的技术资源开发、命令与控制以及渗透。表 2按 ATTCK 战术分类的可部署诱饵技术可行性 ≠ 否按技术占比从高到低排序ATTCK 战术 ID战术名称 (ATTCK Tactic Name)技术总数可行性得分可部署诱饵数量占比是 (Yes)基本是 (Mostly Yes)基本否 (Mostly No)计数%TA0007发现 (Discovery)3416422265%TA0002执行 (Execution)17522953%TA0006凭据访问 (Credential Access)17710847%TA0009收集 (Collection)17800847%TA0001初始访问 (Initial Access)11500545%TA0008横向移动 (Lateral Movement)9400444%TA0043侦察 (Reconnaissance)11301436%TA0004权限提升 (Privilege Escalation)14220429%TA0003持久化 (Persistence)23302522%TA0005防御规避 (Defense Evasion)47333919%TA0040影响 (Impact)15200213%TA0042资源开发 (Resource Development)800000%TA0011命令与控制 (Command and Control)1800000%TA0010数据渗出 (Exfiltration)900000%总计​250​58​12​10​80​32%​图3ATTCK矩阵中的欺骗面。允许使用诱饵的技术是那些可行性 ≠ 否的技术。4.2 为什么一些技术允许使用诱饵允许使用诱饵的80个技术和不允许的170个技术之间的分界归结为一个条件使用该技术是否使攻击者与防御者控制的资产进行交互。每个允许使用诱饵的技术都会驱使攻击者朝向防御者可以伪造的某个东西例如登录服务、凭证、共享资源、主机、邮箱或文件。凭据猜测寻找账户勒索软件寻找文件枚举试图找到可到达的服务。在每种情况下防御者都有地方可以部署诱饵。不允许使用诱饵的170个技术以两种方式之一未能满足此条件。首先一些技术发生在防御者控制空间之外或依赖于攻击者控制的基础设施。防御者没有资产可以放置在攻击者会到达的地方。这解释了三个没有任何允许使用诱饵技术的战术资源开发8个技术、命令与控制18个和渗透9个。其次一些技术涉及攻击者仅对他们已经在受感染主机上控制的对象采取行动例如混淆代码、修改时间戳、禁用安全工具、计划任务或利用本地漏洞。诱饵无处可放因为攻击者从未触及防御者可控的资源。这涵盖了防御规避38/47、持久化18/23和权限提升10/14中大多数不允许使用诱饵的技术并且在其余战术中也以较少的数量出现。这解释了图3所示欺骗面的形态。空的战术是在我们的基础设施欺骗范围内攻击者行为没有为防御者控制的诱饵创造位置的阶段。这并不意味着欺骗在那里没有作用。它表明这些阶段可能更适合基于角色或叙事的欺骗其目标是塑造攻击者的信念或选择而不是与诱饵资产进行交互。4.3 放置模式扫描和搜寻在允许使用诱饵的80个技术中我们的分组产生了两种模式。在第一种模式中我们称之为“扫描”Sweep攻击者会触及范围内的所有内容并作为副作用遇到诱饵。文件收集、网络扫描、凭据喷洒、勒索软件和擦除器都遵循此模式。诱饵不需要被特别寻找。它需要位于批量活动经过的地方。在第二种模式中我们称之为“搜寻”Seek攻击者正在寻找特定类型的资产要么是为了读取它要么是为了对其采取行动并与该资产的伪造版本进行交互。凭证、服务、共享资源、主机和邮箱都是攻击者可能寻找且防御者可以伪造的资产。每个允许使用诱饵的技术都属于这两种模式之一。这两种模式也给出了一个放置规则。诱饵只有在位于扫描路径上或模仿被搜寻的资产时才有效。扫描型诱饵必须放置在广泛活动会经过它的地方。搜寻型诱饵必须看起来像攻击者试图寻找的资产。放置在两种路径之外的诱饵无论多么逼真都不太可能被触及。对于防御者来说这使得放置取决于所针对的技术。如果技术是扫描型的诱饵必须位于将被扫描的资产之中。如果技术是搜寻型的诱饵必须类似于被搜寻的资产。这也解释了为什么不考虑攻击者行为而放置的诱饵可能无人问津它们位于两种路径之外。4.4 诱饵产生什么信号对于允许使用诱饵的80个技术我们检查了放置后发生的情况攻击者是否可能与诱饵交互该交互是否产生情报以及它是否可靠地指示恶意。这些分数按战术的细分如表3所示。这些分数的可视化表示也显示在图4中。表 3针对 80 项可部署诱饵技术可行性 ≠ 否的下游评分按 ATTCK 战术细分。下游评分包括交互性、情报收益和恶意保真度。MY 基本是MN 基本否。ATTCK 战术 ID战术名称 (ATTCK Tactic Name)交互性 (Interaction)情报收益 (Intelligence Yield)恶意保真度 (Malice Fidelity)是 (Yes)MYMN否 (No)是 (Yes)MYMN否 (No)是 (Yes)MYMN否 (No)TA0007发现 (Discovery)156101471021820TA0002执行 (Execution)027090005130TA0006凭据访问 (Credential Access)440080003500TA0009收集 (Collection)530080001700TA0001初始访问 (Initial Access)221050003200TA0008横向移动 (Lateral Movement)310040004000TA0043侦察 (Reconnaissance)121031002110TA0004权限提升 (Privilege Escalation)022040001300TA0003持久化 (Persistence)113050002300TA0005防御规避 (Defense Evasion)117090005400TA0040影响 (Impact)200020002000总计​34​24​22​0​71​8​1​0​30​44​6​0​(a) 交互(b) 情报产出(c) 恶意保真度图4按战术技术百分比划分的下游分数细分针对允许使用诱饵的80个技术可行性 ≠ 否。y轴战术顺序与表3相同。在交互方面34个技术得分为“是”24个得分为“基本是”22个得分为“基本否”。这意味着即使可以放置诱饵攻击者交互的可能性也不总是相同的。原因是放置一些技术自然地驱使攻击者走向诱饵而另一些则取决于诱饵是否位于正确的位置、具有正确的配置或匹配攻击者的工具。对于防御者来说要点是仅靠可行性是不够的。诱饵可能存在但除非它被放置在技术实际引导攻击者到达的地方否则仍然不太可能被触及。在情报产出方面71个技术得分为“是”8个得分为“基本是”只有1个得分为“基本否”。这表明一旦诱饵允许交互产出很少会成为限制因素。当攻击者与诱饵交互时该交互通常能揭示一些有用的信息他们想要的资产、他们使用的工具、他们尝试的行动或者他们所处的攻击阶段。虽然情报产出取决于实施方式但对于防御者来说更困难的问题是首先让攻击者与诱饵交互。在恶意保真度方面30个技术得分为“是”44个得分为“基本是”6个得分为“基本否”。这是权衡最明显的地方。发现TA0007是允许使用诱饵最多的战术有22个技术但这22个中只有2个在恶意保真度上得分为“是”因为合法用户也会枚举文件、账户和服务。横向移动TA0008和影响TA0040则处于另一端这些战术中每个允许使用诱饵的技术都在恶意保真度上得分为“是”但它们加起来只有6个技术。对于防御者来说正确的放置策略取决于目标。广泛覆盖来自于繁忙位置的诱饵在这些位置命中需要关联和过滤才能被视为恶意。高恶意保真度来自于合法用户不应触碰的位置的诱饵但这些机会较少。4.5 专家研究评分体系的使用和一致性4.5.1 专家能否应用评分体系所有八位专家都完整地应用了评分体系。每位专家都为所有五个技术生成了一个分数和口头理由提供了预期的160个专家分数。这回答了研究的第一个目标除原作者之外的专家也能够根据书面说明使用评分体系。文字记录审查表明专家们理解整体任务但边界案例难以评估。最常见的困难是区分可能存在的诱饵和攻击者实际会接触到的诱饵。专家们通常同意防御者可以伪造某些资产但对于攻击者路径是否会现实地导向它存在分歧。这在交互标准上尤其明显。文字记录还显示了其他三个分歧来源。首先专家们对于部分诱饵需要多逼真才能算作可行存在不同看法。其次一些专家认为如果诱饵命中能揭示工具、字典、基础设施或意图那么它就是有用的情报而另一些专家则将此与单纯的检测区分开来并对情报产出进行更保守的评分。第三一些专家将破坏性行动或访问敏感存储库视为恶意行为的明确证据而另一些专家则考虑可能的良性管理活动或内部噪音。一些ATTCK技术在同一技术名称下涵盖了不同的情况。例如暴力破解可以指针对在线服务尝试密码也可以指离线破解哈希值。这些情况使得选择一个单一的分数变得更加困难。4.5.2 专家们的一致性有多高表4报告了九位评估者见第3.4节之间的一致性。评估者在28%到44%的时间里选择了完全相同的级别。当我们也将评估者之间相差一个级别例如“是”和“基本是”的情况计为接近一致时一致性上升到67%到76%之间。换句话说评估者很少给出完全相同的答案但他们通常很接近几乎从未给出相反的答案。每个标准的偶然一致性校正分数Krippendorff的α都较低我们将在下面解释。表4九位评估者在五个ATTCK技术上的一致性。完全一致性显示评估者选择相同分数的频率。有序一致性也在分数接近时例如“是”与“基本是”给予认可。α是Krippendorff的序数alpha。标准完全一致性有序一致性α可行性0.420.720.36交互0.280.67-0.06情报产出0.390.730.08恶意保真度0.440.760.12较低的α值并不意味着评估者给出了相反的判断。它们反映了该统计量设计所要测量的内容。与前两列不同Krippendorff的α会对可能偶然发生的一致性进行校正。在我们的研究中这种校正很难解释因为样本量小且许多分数落在量表的上层。在这些条件下即使评估者大多选择了相邻的级别偶然一致性校正后的分数也可能很低甚至略微为负。因此我们将专家研究解释为显示了评分体系被接近但不完全相同地使用而不是强烈的偶然一致性校正后的一致性。总的来说该研究支持评分体系是可用但不完善的。专家能够根据书面说明应用它并且通常得出相近的判断。该研究还指出了具体的改进点明确区分可达性和交互性阐明什么算作情报而不仅仅是检测本身使恶意保真度标准关于良性管理活动的描述更加明确并指出ATTCK技术定义在合并可能需要单独评分的场景时的问题。5 局限性与未来工作这项工作的主要局限性在于完整的ATTCK评估是由单一主要评分者进行的。虽然我们试图通过使用固定的指导性评分、审查模糊案例以及进行小型专家研究来降低这种风险但这仍然是一个局限性。因此欺骗面图应被视为首次系统性评估旨在引发讨论而非最终定论。MITRE ATTCK会持续发展新技术也会带来新的资产和新的可能诱饵。未来的工作应随着ATTCK的发展更新欺骗面图引入更多评估者并利用社区审查来完善评分规则。基于LLM的评判或批评系统也可能作为额外的一致性检查手段但它们应支持而非取代专家审查。第二个局限性是评分体系评估的是原则上可能的情况而非特定部署中会成功的情况。一个技术可能允许使用诱饵但结果仍然取决于诱饵的实施方式、放置位置以及攻击者是否注意到它。未来的工作应将评分体系应用于已部署的欺骗系统并将分数与观察到的部署结果进行比较。分析还表明许多ATTCK技术共享相同的底层诱饵资产。例如一个被访问的蜜文件可以用来捕获不止一种攻击者行为。未来的工作应在以技术为中心的评估之外开发一个以资产为中心的评估。技术图显示了诱饵可以拦截哪些攻击者行为。资产视图则可以显示防御者需要部署什么。6 结论网络欺骗通常假设诱饵可以放置在攻击者行为发生的任何地方。我们在ATTCK v18.1框架下检验了这一假设。使用固定的四标准评分体系应用于全部250个技术我们发现只有80个技术32%允许放置一个攻击者有可能接触到的防御者控制诱饵。对于其余170个技术在攻击者的路径上不存在可以被伪装成诱饵的防御者控制资产。这个边界不仅仅是一个评分结果。它反映了攻击发生的地点。只有当攻击者触及防御者可以伪造、检测和观察的某个东西时诱饵才能生效。在我们的基础设施欺骗范围内这一条件在某些战术中出现而在另一些战术中则不存在。这解释了为什么诱饵机会集中在发现、执行、凭证访问和收集等战术中而在资源开发、命令与控制以及渗透中则不存在。对于允许使用诱饵的技术攻击者通过两种方式之一到达诱饵。在“扫描”Sweep模式中攻击者广泛地移动触及范围内的所有内容并在该活动中偶然遇到诱饵。在“搜寻”Seek模式中攻击者寻找特定类型的资产并与一个伪造版本进行交互。这两种模式给出了一个简单的放置规则诱饵要么必须位于扫描路径上要么必须模仿被搜寻的资产。两者都不符合的诱饵无论多么逼真都不太可能被触及。下游分数也显示了这些诱饵能产生何种信号。情报产出很少是限制因素大多数诱饵交互都能揭示有用信息。更困难的问题是攻击者是否可能与诱饵交互以及该交互是否能清晰地将攻击者活动与合法活动区分开来。极端情况显示了一个实际的权衡。广泛覆盖来自于繁忙位置的诱饵在这些位置命中需要更多的解读。高恶意保真度来自于合法用户不应触碰的位置的诱饵但这些机会较少。我们提供了评分体系、决策规则和完整的逐技术评估以便该图景可以被复制、质疑并随着ATTCK的发展而更新。结果不是一份部署指南而是一幅边界图它显示了基础设施欺骗可以从哪里开始不能从哪里开始以及诱饵交互可能产生何种类型的证据。