这项研究针对安全运营经理作为安全团队中的关键角色,通过建立人工智能素养、定义可衡量的结果以及使用定性、定量和增强评估来评估网络安全人工智能助手的长期价值。
主要发现
-
目前大多数网络安全AI助手都专注于支持威胁情报、暴露信息检索和告警富化等活动的安全运营能力。这使得安全运营经理成为评估网络安全AI助手能力的最合适角色。
-
根据 2024 年 Gartner 设计和构建现代安全运营调查,40% 的安全运营经理认为人工智能将在未来 12到24 个月内对安全运营产生最重大的影响。然而,他们中的许多人还没有正式制定评估标准或结果驱动指标来评估人工智能助手的好处或验证其输出的准确性。
-
尽管人们对网络安全 AI 助手抱有很高的期望,但目前它最大的作用是向广泛的潜在用户(尤其是那些工作经验较少的用户)展示已有的见解。它们可以消除现有工具的一些复杂性,但无法将糟糕的检测引擎变成好的引擎。
-
目前,网络安全 AI 助手主要基于提示,需要用户提出正确的问题才能得到适当的回应。Gartner 预计,更多的复合方法(即将见解直接推送给用户)将更好地将 AI 系统集成到安全人员的工作流程中。
建议
负责评估网络安全 AI 助手的安全运营经理应该:
-
通过在安全团队中建立最低限度的人工智能素养、认识关键的生成人工智能 (GenAI) 技术及其实际工作方式,为成功评估奠定基础。
-
通过关注团队目标并清楚地识别和解释安全用例来定义 GenAI 投资的可衡量成果。
-
通过解决成功实施的所有关键要素,创建网络安全 AI 助手实施评估问卷。
-
通过使用定性和定量指标的混合来评估人工智能助手的影响,并通过增强评估来最大化人工智能助手的长期价值。
战略规划假设
到 2028 年,威胁检测和事件响应中的多智能体人工智能占人工智能实施的比例将从 5% 上升到 70%,主要用于增强而不是取代员工。
介绍
大量利用商业大型语言模型 (LLM)的新聊天机器人(例如OpenAI 的GPT或 Google 的 Gemini )已经冲击了许多行业,包括网络安全。这种涌入推动了创建一致评估框架的迫切需求,以有效开展AI 项目并将 AI 融入各种实践。
但少数组织拥有成功执行AI项目的经验。在 2023 年 Gartner 大型企业技术采用路线图调查中,45% 的安全领导者表示他们已经在投资或计划在现有安全工具中投资 GenAI 功能,32 % 的安全领导者表示将在现有安全运营中心 (SOC) 工具中投资 GenAI 功能。根据针对安全运营经理的 2024 年 Gartner 设计和构建现代安全运营调查,40% 的受访者自发地提到 AI 是未来 12 到 24 个月将对安全运营产生最大影响的领域,并提到了积极和消极影响(例如技术进步、新攻击)。
Gartner 观察到,自 2023 年以来,网络安全提供商宣布的许多新一代人工智能功能都采用聊天机器人或网络安全人工智能助手的形式,最常见的用例属于安全运营活动类别。
这种情况为安全运营经理提供了一个机会,让他们站在更广泛的网络安全团队努力的前沿,评估Gen AI 和未来的 AI 计划。安全运营经理必须围绕 AI 概念(AI 素养)构建并与其他团队共享最低限度的可行知识库,以明确区分“AI 清洗”与现实。然后,他们必须利用这个知识库建立一套公正的定性要求,以此为基础有效衡量成功和收益。
什么是网络安全 AI 助手?
Gartner 审查了来自不同产品类别的100多个网络安全 AI 助手。目前,网络安全 AI 助手的主要界面是一个提示,类似于搜索引擎输入,允许用户以自然语言提问并获得文本、表格或偶尔图表格式的响应。
这些助手支持系列网络安全用户,大体可以分为四类。
图 1:四种类型的网络安全 AI 助手
网络安全AI助手的四个主要类别可以概括如下:
-
任务:通常是后端功能,仅限于对商业 LLM(例如 OpenAI 的 GPT)进行个别查询,以生成以前网络安全供应商团队以更手动的方式创建的内容。示例包括告警摘要和产品文档。
-
流程:通常以集成在现有用户界面中的提示形式提供。这些辅助功能支持与用户当前执行的活动相关的问题,并且通常支持重复过程,为下一步行动提供建议。典型示例包括引导式威胁狩猎。
-
功能(工作):独立产品,通常是付费附加组件。此类助手主要依赖于提供商自身产品组合中的数据和分析来源。这些助手可以支持提供商产品用于特定角色,并在该工具集直接可用的环境中执行各种任务和处理功能。虽然支持多模态(例如,处理文本以外的内容)的 AI 助手实例仍然很少,但 Gartner 观察到这一类别中存在多模态支持的早期迹象。典型示例包括基于交互式提示的产品或订阅,以支持 SOC 分析师。
-
团队:类似于作业支持助手,但旨在与更广泛的第三方工具集成,提供分析覆盖和提示前端。团队类别的 AI 助手超越了我们今天常见的有限开放性,后者基于少量外部插件。真正的团队助手为所有支持的工具提供类似的功能,无论来源或供应商如何。随着提供商开始将 LLM 与现有的机器学习技术相结合,提高自动化程度和对更多来源的支持,并创建更多复合 AI 助手,Gartner 预计会出现更多示例。
这项研究解释了在技术缺乏成熟度和快速发展的背景下实施人工智能增强任务和人工智能网络安全助手的评估流程的基本原理。
分析
对于大多数团队来说,评估网络安全 AI 助手将侧重于商用现货( COTS )工具。组织如何评估Gen AI 和一般 AI 将随着时间的推移而发展,并将影响对Gen AI 在网络安全用例中的长期价值的看法。
为了帮助安全团队评估COTS产品或构建自定义网络安全 LLM 应用程序,Gartner 建议采用结构化的五步框架。安全团队可以使用此框架来衡量网络安全 AI 助手提供更好的团队成果的能力。
通过遵循 Gartner 的五步 AI 助手评估框架,组织将更成功地在其网络安全计划中使用生成式 AI。
量化衡量许多针对单个任务或流程的简单 AI 助手的好处可能不值得付出努力。不过,组织每次考虑采用AI 助手时都需要评估其一些基本方面。全面评估的五个步骤如下:
-
建立最低限度的人工智能素养。为安全运营经理、其他安全领导和技术团队提供必要的人工智能知识,以确定目标并进行有效的评估。
-
为 GenAI定义可衡量的结果。确定AI 助手可帮助实现的实际安全用例。使用相关的结果驱动指标 (ODM) 来指导您的 AI 优先事项,这些指标持续代表您投资的交付成果。
-
创建并分享实施评估问卷。解决成功部署的所有关键要素,从隐私影响开始。
-
评估GenAI对网络安全活动的影响。确定并监控应随着实施的 AI功能而发展的现有安全运营和网络安全指标。
-
通过增强评估实现长期价值最大化。超越时间点评估,评估对安全团队的长期影响,并确定何时在路线图中添加新功能,以及影响是战略性的还是战术性的。
结合起来,这五个步骤为安全运营经理及其团队提供了定性、定量和增强分析的正确组合(见图 2)。
图 2:评估网络安全 AI 助手
该评估过程的主要挑战在于第四步和第五步,即应用正确的定性和定量指标组合来有效衡量 GenAI 在现有网络安全活动中的价值。
通过建立和推广最低限度的人工智能素养为成功的电子评估奠定基础
总体而言,安全团队正在提高对 AI 和Gen AI 概念的理解,但许多安全运营经理仍在努力理解诸如基础和检索增强生成 ( RAG )之类的概念。Gartner 建议管理职位的员工掌握有关 GenAI技术能做什么和不能做什么的基本知识,而架构师和运营人员则更深入地了解机制,以提高评估和选择工具的能力。
团队内部的AI知识可用性差异很大。拥有 AI 创新中心、数据科学家和 AI 专家的组织具有先发优势,但需要获得跨团队培训计划的批准,而这并非必然。自学可能是唯一的选择。以下部分列出了开始这一教育之旅的一些基础资源。
安全领导者需要对人工智能有深入的技术理解
安全领导者通常不是人工智能助手技术的日常用户,因此只能根据其他人的反馈和供应商演示形成意见。
技术提供商的激进定位和全球范围内使用拟人化比喻来描述人工智能能力的倾向导致了预期过高和投资错误。
许多组织已经开发出关于在网络安全领域长期使用的监督和无监督机器学习技术的最低限度的知识库。他们需要对生成式 AI 概念达到同样的理解水平。
大型语言模型 (LLM) 是基础模型的一个子类别。LLM 根据输入(提示)的统计接近度生成内容,并使用大量数据进行训练。遗憾的是,要理解 LLM 的工作原理以及其真正的功能并不容易。
LLM 还不能将错误的检测引擎转变为好的检测引擎。
评估大语言模型时要记住的关键事实包括:
-
LLM 并不“智能” 。它们是预测性的下一个单词模型,可以根据提交给模型的提示创建单词模式。降低 LLM 的错误率需要及时的工程实践,例如为LLM打下基础。
-
LLM 可能会提供不准确的内容(例如幻觉)。围绕 LLM 的应用程序堆栈中的机制可以帮助减轻一些风险。这些不准确性造成了最佳用例悖论:GenAI 应用程序似乎通过消除技术障碍和缩短使用工具的学习曲线为初级员工提供了更多帮助,但高级员工更有能力通过挑战 LLM 输出来避免代价高昂的错误。
-
LLM 很难回答“我不知道”,因为他们是基于概率而不是理解来创建内容。
-
LLM的事实库是静态的。训练模型的成本很高,而且很少进行。基于最近事件(如告警和威胁情报)的信息不是来自LLM ,而是来自调用 LLM 之前执行的查询。RAG 是最常见的方法。模型微调是另一种方法。
-
LLM 无法将糟糕的安全工具变成好的工具。许多 AI 网络安全助手中 LLM 的实现通常包括将用户问题转换为查询语言、使用自然语言处理以及将查询输出格式化为易于使用的答案。安全领导者应该了解:
o 声称Gen AI 可以改善检测能力的说法通常基于混淆 AI 和Gen AI 术语的令人困惑的陈述。监督和无监督机器学习已在各种威胁检测技术中使用了很长时间,并且可能被打包为新 AI 助手功能的一部分。GenAI 的新颖之处在于这些助手提供的知识的可访问性。
o LLM可以处理脚本和反编译代码,提供解释或识别代码是否恶意。但是,这种处理速度还不够快,到目前为止,它主要作为威胁狩猎或威胁研究用例的一部分来实现。
-
LLM 可能会带来新的安全风险。因此,它们有一些配置强化要求。组织需要为其 AI 工具的实施和工具可以访问的数据设置访问控制和范围执行等防护措施。良好的实施对于执行的查询是透明的,使用户能够轻松理解和分析AI 生成的响应。
技术评估人员必须了解人工智能管道
技术评估人员、实施人员和运营团队需要更深入地研究人工智能架构和网络安全人工智能助手的实施。自动化偏见是指人类倾向于偏爱来自自动化系统的内容。它可能会对技术用户质疑自动化工具结果的能力产生负面影响。了解人工智能界面背后的概念使安全运营专业人员能够创建评估清单,这些清单必须适用于整个Gen AI 管道,而不仅仅是模型。
图3 显示了安全操作场景中的一个典型问题,“2023 年最严重的 CVE 是什么?”单独的 LLM 模型没有网络搜索功能或通过 RAG 进行知识发现,因此受到其训练数据截止日期(在 2023 年之前)的限制。图4显示了如何更好地理解 GenAI应用程序架构,以指向评估应用程序的正确组件。
图 3:向 ChatGPT 询问有关比其培训截止日期更近的事件的问题
chat.openai.com - GPT 3.5 - 2024-04-21
图 4:评估整个 GenAI 堆栈,而不仅仅是 LLM
对安全事件问题的回答是好是坏并不表明一个模型比另一个模型更好或更差。图 3 中的示例是构建 AI 素养的另一个原因,以便团队中的每个人都了解LLM 不擅长说“我不知道”的潜在影响。他们可能会编造答案或产生幻觉,而用户有责任发现它。
误解LLM在网络安全人工智能助手中的作用的一个风险是将评估从人工智能系统中同样重要的组件上转移开。
认识支撑网络安全功能的关键GenAI用例
了解Gen AI 的功能和用例可以简化对不太复杂的 AI 助手的评估。通过对这些 GenAI 功能进行初步定性评估,安全团队可以快速获得有关需要衡量哪些指标的初步意见,而无需为每个安全用例确定更详细的指标。
目前支持网络安全功能的主要 GenAI 用例包括:
-
知识检索:使用AI 助手作为搜索引擎,您可以查询任何与产品或技术领域相关的问题。基于 RAG 管道,可以访问相关文档(例如产品文档、政策) ,这将很快流行起来,并在不到一年的时间内被接受为基础功能。
-
内容创作,包括:
o 被动内容。利用LLM摘要功能根据原始材料(例如告警或漏洞文档、资产数据库)创建易于使用的文本内容。这包括针对组织中特定角色的警报摘要和报告。
o 查询——规则转换。通过访问相关文档,LLM 可以将自然语言问题转换为查询语言问题。通过这种方式,技术提供商可以快速将提示前端添加到现有的查询界面中。
o 脚本——代码。最流行的用例包括可以为各种语言生成代码的AI代码助手。
-
生成式编排:严格来说,这是当今的内容生成用例。它包括创建测试计划以及响应和自动化剧本。它可以帮助进行安全评估或响应自动化。大多数实施都需要人工干预作为验证步骤,然后才能利用现有软件组件实施操作。
-
分类器:这不是LLM最常见的用例,但您可以使用Gen AI 对文本内容进行分类。二元分类(例如,恶意-非恶意)是最基本的实现。对于许多网络安全用例,其他非生成性机器学习技术已成功使用多年。
为网络安全用例实现这些 GenAI 功能需要的不仅仅是现成的商业 LLM 模型集成。
一旦参与评估的每个人都理解了相关的Gen AI 概念,安全运营经理就可以定义更现实的目标结果并设计相关的评估要求,获得过去的演示效果。
定义生成式人工智能投资的可衡量结果
第二步定义了目标用例的成功,以及安全团队如何持续衡量相关成果。如果衡量得当,这些成果将能够通过实施和持续运营推动优先事项和投资。它们还将协调利益相关者,从团队负责人(例如安全运营经理)和首席信息安全官 (CISO) 开始,他们应该分享对 AI 计划背后的业务驱动因素的理解(例如,“我们为什么要这样做?” “是什么让该计划值得投资?” )。
在缺乏可识别的结果和相关的安全运营指标的情况下,创建临时指标将无助于支持安全运营改进。
Gartner 建议使用结果驱动指标 (ODM) 来将价值与网络安全和业务成果相结合,并确保 AI 计划与更广泛的安全和 IT 目标和关键结果 (OKR) 保持一致。
不幸的是,媒体头条报道了高两位数增长的预期,技术提供商迅速展示了个别统计数据,承诺变革性任务生产率提高是Gen AI 的一个主要优势。但安全团队应该抵制将任务生产率作为 GenAI 计划主要成果的诱惑。
将对话转向团队目标和持续交付的成果
根据 2023 年 Gartner 企业 AI 调查,87% 的成熟 AI 组织受访者报告了财务分析、投资回报率分析或具体衡量标准,51% 的受访者使用 KPI 来定义成功。
尽管人工智能助手旨在提高生产力,但将单个任务的硬数字作为网络安全人工智能助手的预期关键结果是一种错误的方法。
在必要时关注团队层面的生产力目标
根据企业的文化或经济状况,可能会要求开展网络安全和安全运营等人员密集型活动来提高生产力。在这种情况下,Gartner 建议将强制性生产力评估集中在团队级和业务部门级改进上(例如漏洞管理团队、SOC团队)。
清晰识别并解释安全用例
在审查来自公共资源和营销材料的用例列表时,安全运营经理需要确保列表在技术上是准确的。他们应该首先明确定义和解释人工智能助手所涵盖的安全用例。为此,安全运营经理需要迅速摆脱人工智能助手产品描述和演示中可用的信息,将明显的用例分解为单个技术特性。接下来,他们应该将这些特性映射到它们影响并有望改进的现有安全指标上。
安全专业人员在为网络安全 AI 助手评估安全用例列表时,必须排除流行语、拟人化和其他拟人化特征。
监控可能成为流行语的术语,如“分析”、“理解”、“原因”和“预测”。虽然其中一些术语在机器学习环境中很常见,但它们并不总是能在安全环境中翻译,并且可能会妨碍准确的评估。
以下是安全运营用例的非详尽列表,以简单且稍微更专业的语言进行解释:
-
调查:
o 事件和告警富化和汇总。此用例是关于作为 RAG 流程的一部分查询数据源并生成摘要警报。
o 威胁情报检索。人工智能助手主要利用摘要功能,根据提供商提供的原始威胁情报来源,提供有关攻击活动、威胁行为者以及战术、技术和程序( TTP )的信息。
o 补救步骤。此用例旨在提供如何逐步补救问题的指导。这可以包括在端点上运行的实际命令(如Power Shell )或嵌入超链接以执行补救步骤。
o 逆向工程丰富。LLM不仅可以直接评论基于文本的脚本,还可以评论以二进制形式收集但已使用专用工具反编译的软件源代码。通过这种方式,LLM 可以提供上下文和解释来支持威胁狩猎工作流程。
-
响应:
o 安全策略推荐。AI助手根据用户请求推荐策略(例如防火墙、微分段) 。虽然与现有的策略推荐功能相比,这几乎没有什么增量价值,但其前景是将这些建议集成到基于观察到的行为的更自动化的工作流程中。
o 自动响应触发器。在AI 代理实施的背景下,Gen AI模型可以触发已识别的自动化操作,利用安全控制中的软件组件(例如 API 调用)自动执行该操作。
-
编排:翻译功能(转换为脚本/策略语法):
o 检测规则生成。此用例涉及在相关检测工具脚本或规则语言中创建检测规则和搜索查询。
-
威胁暴露管理:
o 风险信息检索。此用例是关于利用搜索和摘要功能列出一组资产或用户的漏洞、错误配置和其他问题。
o 曝光优先级排序。此用例旨在利用AI工具现有的评分机制来总结和呈现最重要的发现。
-
进攻性安全——红队:
o 活动/测试场景。此用例是关于根据过去的活动或现有数据创建推荐的活动或测试场景,以在定义的范围内开展。
o 漏洞创建。有多个示例使用 LLM 作为自动强化学习循环的一部分来生成针对已识别漏洞的漏洞利用或针对已识别代码片段测试漏洞利用。
与现有的可用技术不同,其中一些用例仅提供增量值。由于 LLM 输出不准确的风险,它们还会产生一些不确定性。但上述列表中的某些功能应该会影响现有指标。例如:
-
调查功能应该对调查平均时间(MTTI)产生积极影响。
-
响应功能应该对平均响应时间(MTTR)带来益处。
为了确保公平评估,重要的是与安全团队达成共识,即在使用支持事件响应的网络安全 AI 助手时应该改进哪些现有的衡量 SOC 效率指标。
创建并分享网络安全人工智能助手实施评估问卷
并非每个网络安全 AI 助手都需要全面的定量评估。但Gen AI 功能的每个实施(无论是内部实施还是来自托管服务合作伙伴)都应通过必要的验证。以下问卷支持初步评估。
网络安全人工智能助手实施评估问卷
范围:
-
AI助手能够回答的问题类别是否清晰详细?
-
提供商能否解释什么是真正新的以及什么是现有功能的新前端?
-
提供商能否列出影响 AI 助手范围的所需订阅和工具依赖项(例如 Microsoft Copilot for Security插件)?
-
提供商是否可以列出并轻松打开/关闭与外部源的集成、其范围和限制?
隐私和数据保护:
-
人工智能助手如何改变现有的数据处理协议?
-
提供商能否详细解释一下AI助手使用的数据来源?
-
提供商能否解释企业数据如何与其自身和第三方共享(例如,点赞/踩功能)?
-
人工智能助手可以通过哪些控制来调整数据驻留限制?
-
AI助手如何遵守数据驻留规定?
-
人工智能助手的提供商是否提供第三方开源和商业 LLM 列表,以及 LLM 托管位置和提供商如何查询 LLM 的信息?
-
该提供商是否提供其合同依赖关系的可见性,包括与其自己的 AI 提供商的许可协议?
-
提供商能否详细介绍其实施的隐私增强技术,例如 AI 管道中的数据屏蔽,以最大限度地降低与商业模型集成时的隐私风险?
可解释性——可信度:
-
人工智能助手是否会公开底层机制(例如查询),以使用户能够验证答案的准确性并更好地理解它是如何构建的?
-
提供商能否分享针对主要用例的 AI 助手的评估基准?
-
有哪些机制可以使反应稳定并减轻幻觉?
用户体验:
-
指导分析的提示功能有哪些(提示模板、下一步建议),以及它们基于什么?
-
有哪些可用功能可以支持团队协作?
-
有哪些可用的自定义选项可以影响AI助手的答案(例如,自定义系统提示)?
-
还有哪些反馈循环机制可以自动或手动改善人工智能助手的输出?
可测量性:
-
提供商是否提供用户和团队级别的使用情况/消费监控仪表板?
-
提供商是否为安全团队提供内部清点和记录问题(例如不良响应)的功能(而不是赞成/反对功能)?
费用:
-
人工智能助手及其依赖项的定价模型是什么?
-
如果人工智能助手的成本基于或受消费限制,那么有哪些工具可用于监控使用情况并估算团队成本?
-
如果人工智能助手今天是免费的,那么提供商能否保证该助手在未来 24 个月内不会成为付费选项?
路线图:
-
供应商能否分享未来 12 个月的路线图?
随着安全团队获得更多经验,这个问题列表将会不断发展并变得更加全面。
然后,安全运营经理应充分利用他们在构建此问卷上投入的资源,与其他安全负责人分享。随着时间的推移,安全团队将从相互的同行评审中受益,并构建出一份每个人都可以使用的更强大的问卷。
使用定性和定量指标组合来评估人工智能对网络安全的影响
本节包含 30 多个用于评估网络安全 AI 助手的指标。根据 2024 年Gartner 设计和构建现代安全运营调查,39% 的组织报告称,他们已经开发了自己的指标,并持续定期进行衡量。这些组织更有可能为网络安全 AI 助手的定量评估做好准备。
相反,如果安全团队还不熟悉目标和关键结果(OKR)和ODM的概念,他们应该从现有的KPI开始,同时决定如何完善他们的指标程序。
建立一套最低有效的E评估指标
在选择和制定指标时,请遵循以下基本规则:
-
明白越少越好,并专注于有限数量的指标。一开始,重点关注三到五个指标;例如,衡量成果质量的指标、用户满意度或改进率、创新贡献、时间和成本。Gartner建议从质量和用户满意度指标开始。
-
关注预期结果,而不是速度。除非你能控制影响相同结果的其他变量,否则不要使用员工生产力等大指标。
-
尽可能利用现有指标,因为利益相关者已经理解其含义。在没有现有指标的情况下,从可管理的定性评估开始,例如每周团队评审。
-
报告绩效。皮尔逊定律指出:“当绩效得到衡量时,绩效就会提高。当绩效得到衡量和报告时,改进的速度就会加快。”
-
建立定期审查指标的节奏。如果值得持续衡量,就值得自动化衡量。根据已确定的衡量差距修改基线指标并加大力度。在进行更改之前,先制定基线并估算收益。
满意度指标(定性)
衡量满意度是主观的,即使基于数学计算,也仍然是一种定性评估,例如:
-
采用率:特定时间段内的访问频率及其演变。以用户百分比和逐月增长来衡量,直到达到目标采用率并维持几个月。
-
所需努力:团队对于从工具中获取用户所需内容所需努力的认知。对于大多数任务而言,这不应高于现有工具,并且可以帮助缩小使用范围,使工具更有效率。
-
用户满意度:用户满意度率= (好评数/总回复数)×100%。
-
熟练时间:新员工成功完成工作所需的时间。
在衡量满意度时,更重要的是确保外部因素(如抵制变革或有偏见的用户样本(例如,只有初级/新员工))不会影响结果。使用多种用户资料和足够大的用户样本进行足够长的评估期(几周,而不是几天)。
GenAI用例指标(混合)
将尽可能多的网络安全功能归类为支持它们的Gen AI 功能。事实上,许多网络安全用例可以与一些Gen AI 功能相关联。将它们呈现出来,可以使用这些功能的已知指标。
为了构建一套能够进行跨产品、跨功能评估和比较的定性指标,并支持标准化的定量评估,安全团队应该将用例缩小到形成意见所需的最小 GenAI 用例集(见表1 )。
表1 :GenAI 用例和相应指标
GenAI 功能 | 关键安全运营用例 | 共享安全用例示例 | 主要指标 | 替代指标 |
知识检索 |
|
|
|
|
内容创作 |
|
|
|
|
生成编排 |
|
|
|
|
分类器 |
|
|
| 估计:
|
来源:Gartner
对话助理指标(混合)
许多网络安全 AI 助手都是基于 LLM 的聊天机器人版本。包括用于评估和比较聊天机器人对团队效率影响的指标。这些指标包括:
-
升级率:这个应该与没有AI助手的进行比较。
-
目标完成率:例如,使用人工智能助手处理的事件分析的百分比。这有点类似于遏制率,用于衡量工具的使用“粘性”程度。
-
失败话语率:聊天机器人无法理解用户意图的次数除以问题/意图的总数。将其与目标完成率相结合。
-
速度:聊天机器人响应时间。
网络安全指标
根据安全运营成熟度,现有的运营 KPI 包括:
-
每条告警的全职等效 ( FTE ) 时间
-
每个告警和每种告警类型的平均分析师时间
-
识别新威胁的时间
-
平均检测时间 (MTTD),以随时间变化的增量来衡量
-
平均响应时间 (MTTR),以随时间变化的增量来衡量
根据组织的成熟度,安全团队已经帮助支持一个或多个关键ODM ,例如:
-
事件控制(分钟)和事件补救(小时)
-
从补丁发布到关键系统补丁部署的平均天数
-
系统暴露平均天数
通过增强E估值最大化人工智能助手的长期价值
俗话说,预测很难,尤其是关于未来的预测。虽然组织仍处于人工智能炒作的中期,但安全领导者需要考虑不同的时间范围并支持更长期的网络安全路线图。
增强型评估衡量与被评估技术(如人工智能系统)的长期影响和价值相关的组织和技术因素。一些关键因素包括组织适应变化的能力、员工技能的发展、员工的再培训以及生成性人工智能的发展。
前瞻性文件是引发长期思考的有用想法来源;例如,预测 2024 年:生成式AI 技术的未来、2024 年人工智能炒作周期和2024 年生成式 AI 炒作周期。
请记住,每个项目也是变革管理项目。除了成果指标之外,与人力资源部门合作监测变革疲劳并确保文化转型成功也很重要。
考虑长期技能发展和员工再培训需求
在 2024 年 Gartner 人工智能时代数据安全调查中,43% 的安全领导者提到,网络安全职能中的技能差距对他们支持安全 GenAI 创新的能力产生了重大或严重的负面影响。不幸的是,紧迫感仍然促使人们采用新工具,而没有花时间来解决这些技能差距。
评估人工智能助手在未来三到五年内对安全团队的影响以及未来所需的技能。经验丰富的分析师可能会在使用人工智能助手的早期挑战生成的内容,但仅接受过使用以提示为中心的工具的培训的团队成员可能不会。人工智能助手对安全团队的长期影响可能会使分析师从初级水平提升到高级水平变得困难。
具体来说,如今,员工技能提升意味着监控允许安全团队保持批判性思维技能的功能,并帮助长期增强团队。如今,点赞/点踩是最常用的反馈功能,有时是唯一的反馈功能。该功能的目的是帮助供应商,而不是安全团队,标记响应本身不会对准确性产生直接影响。
如果没有激励措施,供应商就不会对其产品做出任何改变。威胁检测技术花了很多年才添加便捷的功能,例如一键式工作流程来标记误报并调整控制。人工智能助手现在已融入评估流程,支持技能管理和保持批判性思维的能力对于提升其长期价值是必不可少的。
除了技能提升的挑战之外,如今技能水平甚至还存在回归平均水平的风险。面对针对国家级的攻击的组织拥有成熟的计算机应急响应小组 (CERT)或计算机安全事件响应小组 ( CSIRT),并采用高度专业化的用例,更有可能遵循专业化和复杂的工作流程。LLM的行动计划能力尚未得到证实,并且推荐引擎的早期实施过度依赖模型。仅依赖 LLM 驱动的工作流程的团队在实施定制程序时的表现可能不如他们。
安全团队需要监控的关键技能相关挑战包括:
-
培养技能并积累经验以挑战 GenAI 输出。
-
在团队内提供并分享有关AI 工具的反馈。
-
确保员工对自己的工作负责,能够看到人为因素能够带来最大价值的领域,并寻求对这些领域进行创新,而不是将人工智能工具视为对其工作的威胁。
-
发现并改进GenAI应用程序的相关和不相关用例,避免回归均值类型的问题。
监控生成式人工智能的演进
GenAI 并不是唯一对网络安全产生重大影响的 AI 学科,但它是一个非常活跃的学科。一些新兴概念已经进入网络安全工具。作为 AI 素养项目的一部分,团队领导和技术评估人员必须了解诸如多模态性、AI 代理和边缘 GenAI等概念以及这些概念的局限性。
最终,GenAI 将支持复合网络安全 AI 助手,将基础模型与其他机器学习技术捆绑在一起,逐步从具有提示式界面的拉动模型过渡到具有自动提供建议和工作流自动化功能的推送交付模型。
安全运营中的复合网络安全 AI 助手可用于:
-
执行自动事件分析。
-
利用Gen AI组件来处理输入并生成行动计划。
-
触发自动响应工作流程。
监控人工智能的发展将有助于安全运营经理准备好分析新兴的网络安全用例,包括自主的完全自主系统(例如,自主 SOC、自主修复),并将自动化功能集成到现有的攻击或漏洞检测系统中。提醒一下,网络安全中的自动化很少受到技术手段的约束,但更多的时候是在出现错误时受到问责制的约束。
评估潜在的组织影响
如今,Gartner 建议优先评估能够增强现有安全团队能力的Gen AI ,而不是破坏工作流程。评估这些 GenAI 功能很容易,因为它们可以明显减少对现有工作流程和流程的影响。
但人工智能助手的影响超出了工具的功能。由于人工智能助手是前端,它们可能会增加与特定提供商锁定的风险。通过监控市场和提供商动态并评估其如何影响投资组合选择,安全团队将更容易保持控制。