在AI领域有一个观点是:“中国AI看场景应用,美国AI看技术创新”。
那么AI场景应用的落点在哪里呢?此前有一种打趣的说法,说AI的尽头在卖课。
这种说法虽然戏谑成分居多,但是我们如果去梳理一下AI卖课的核心方向,就不难发现Agent其实才是AI课程的主力军。AI Agent 应用简单,上手门槛低,而且可以快速解决工作和生活中的各类效率问题。从这一角度来看,AI Agent确实可以突破以往新技术应用人群不足的卡点问题,进而把蛋糕做大,推动技术落地。而且,Agent落地还能带动底层基础服务的升级,过往的一些技术迭代也可以因 AI Agent发展而受益,尤其是在云端协同的领域。
近期一份报告也佐证了这一观点,报告认为AI Agent和端侧AI会是未来AI场景应用最具竞争力的应用方向。
“AI Agent 是端侧 AI 的重要一环,我们预计端侧应用在很长一段时间都将是端侧+云端搭配使用,考虑到 AI Agent 需要规划+多次调用大模型,端侧 AI 还会带来大量的云端推理算力增量。”
AI Agent,当前的最佳应用模式
AI Agent 在当下有着非常广阔的市场空间,并在全球范围内高速增长,重塑了各行业的运营模式和客户交互体验。据Grand View Reasearch的数据来看,全球 AI 智能体市场在 2023 年的规模已达到 38.6 亿美元, 并 预计从 2024 年到 2030 年将以 CAGR 45.1% 快速增长,2030 年市场规模有望突破 503 亿 美元;推动这一增长的核心驱动力包括自动化需求的增加、NLP等技术的进步,以及消费者对个性化体验和实时服务的期望不断提升。
AI Agent的价值是全方位的,首先是行业应用,在电商、医疗和安全等多个领域已经有深度落地案例;在企业内部,能够促进研发、营销、销售和客户服务等多部门和工种的效率提升。
能力维度来看,AI Agent具备记忆能力、规划能力、行动能力和工具能力,与人类用户、外界环境、其他Agents以及系统开发者实现高效协作。
-
人类用户:作为监督者、合作者和决策者,通过接口与 Agent 交互。
-
外界环境:为 Agent 提供感知和反馈交互空间。
-
多个 Agent:通过协作整合任务结果,形成群体智能。
-
系统开发者:负责设计开发 Agent 的相关能力模块,确保其功能可靠和高效运行。
如果我们深入一层审视AI Agent,LLM为AI Agent 提供的规划、记忆、工具和行动四大能力模块为其提供了对复杂任务的理解、分解和执行能力。
-
规划能力:分解复杂任务,制定并执行多步骤计划来实现目标。
-
记忆能力:存储和回忆信息,以便在需要时使用。
-
工具能力:使用网络搜索、代码执行等工具来收集信息、采取行动或处理数据。
-
行动能力:执行具体的操作,如生成文本、控制设备等。
当然,吴恩达的经典观点中认为,AI Agent 领域有四种模式,具体如下:
-
Reflection(反思):让 LLM 审视并修正自己生成的输出。
-
Tool Use(工具使用):LLM 使用网络搜索、代码执行等工具来帮助它收集信息、采取行动或处理数据。
-
Planning(规划):LLM 分解复杂任务,制定并执行多步骤计划来实现目标。
-
Multi-agent Collaboration(多智能体协作):多个 AI Agent 协同工作,通过分解任务、讨论和辩论来提出比单个智能更好的解决方案。
当然,Agent不是简单地对LLM的技术堆砌,其专有的编排曾在 AI 生态系统中发挥着核心作用,通过整合大模型与云服务,可以实现任务的动态分配与高效协作。Agent不仅仅是用户与AI之间的桥梁,也是接基础设施与应用程序的桥梁,还为上层应用提供智能化支持。
海外头部企业在AI Agent领域持续发力:
微软:在Ignite大会上宣布全球最大规模的企业级AI Agent生态,M365 Copilot增加更多功能,Copilot Studio平台允许用户创建、管理和连接Agent,并更新了包括知识管理、分析、语音和图像功能,以及定制自主智能体功能。Salesforce:2024年9月发布Agentforce,其旨在整合AI Agent与人类协作、数据云、CRM等模块,提供全面的客户服务和销售解决方案,并且支持多渠道自助服务,定价模式为按次付费。
HubSpot:可能是对打工人冲击最大的一个,其推出全新AI品牌Breeze。Breeze 作为一个面向 GTM 团队的完整 AI 解决方案,能够赋能营销、销售和客户服务团队,能与企业的客户数据进行整合,提供内容生成、任务安排和自动化工作流程。以笔者曾担任的内容营销专家岗位来看,Breeze可自动生成高质量的营销内容,例如落地页、播客、博客文章、案例研究等,并能根据企业品牌风格进行定制。这些能力几乎可以覆盖80%的工作场景,影响力非常可观。
Agent的C端临界点
除了企业应用的价值之外,Agent现在真正破圈的部分还在于C端。
2024年10月23日,Claude 3.5 Sonnet 和 Haiku正式推出,其能力相比此前版本有着明显提升,尤其在自主编码和工具使用任务层面。而且,其新增的Claude Sonnet 模型控制电脑的能力也让人眼前一亮,开发者可以通过 API 指示模型像人一样使用计算机,包括观察屏幕、移动光标、点击按钮和输入文本等。尽管这些功能还处于实验阶段,在精准度方面还可能存在一些问题,但这却很可能是一种大的趋势,其标志着AI Agent在自然语言控制硬件方面的重大进步,也有可能引领行业在这种全新的交互模式下开启新一轮的竞争。
随后在10月25日,智谱AI推出了AutoGLM,这款产品能接收简单的文字或语音指令,自动完成复杂的操作流程,无需用户手动干预即可实现在手机和网页上的各类操作。而且,AutoGLM具备实时操作、无需 API 调用、自动化任务执行等特点,在AndroidLab Success Rate数据集上,实现了36.2%的成功率,超过 GPT-4 和Claude等大模型。这些能力使得其在移动端的优势非常明显,如社交媒体管理、在线购物、旅行预订、外卖订购和日常信息查询等场景下,均可简化用户操作流程。
由此不难看出,AI Agent作为端侧AI的重要组成部分,其能够为用户提供更加场景化、个性化的智能体验。当然,想要实现端侧AI的真正落地,不能仅仅依靠模型和算法的优化,还需要考虑与芯片及设备的适配问题。
2024年6月WWDC24大会上,苹果推出Apple Intelligence,其能深刻理解语言含义,支持邮件、备忘录、Safari 浏览器、Pages 文稿、Keynote 讲演以及第三方 App;同时,升级后的Siri结合了ChatGPT的能力,能更精准地理解用户意图并提供智能回应。
同在6月,华为宣布HarmonyOS NEXT首次将AI融入系统,并推出 Harmony Intelligence。依托昇腾的算力和盘古大模型,提供系统级的 AI 能力,支持在端侧处理图像、通话、文档、搜索领域的 AI 功能,在云侧调用华为盘古大模型及其他第三方大模型,把云端协同的优势带入用户手中。
此外,智谱的GLM-4V模型和腾讯的混元大模型均与高通展开深度合作,基于芯片优化的角度将端侧多模态交互能力和终端侧部署能力进行提升。不难发现,端侧AI在2024年已经变得越发势不可挡,一些硬件厂商也在集体加入大模型赛道,探索AI Agent能够给予用户的更多便捷可能。
云端协同成为AI Agent的必经之路
端侧AI发展一定绕不过“不可能三角”,也就是模型性能、模型大小和模型功耗。三者互相依存又彼此制约。比如说,想要提升用户的智能体验,端侧AI就必须提高模型性能,但是复杂的模型结构需要更多的计算资源来处理数据,在推理阶段,大量的参数相乘相加等运算操作增加了计算量,从而导致能耗上升。因此通常来讲,高性能意味着更大的模型尺寸和更高的能耗,很难同时达到最优情况。
可以说,端侧AI的发展的目标就是打破不可能三角,而AI Agent就在其中扮演了非常重要的角色。由于手机和PC是端侧AI的最佳落地方向,因此想要解决功耗问题就需要做大量的适配工作,而从电池容量的角度来看,通过工作流优化任务的实现则是刚需。微软便是基于Copilot Studio提供的一系列工具,允许开发者创建和管理自动化业务流程,针对特殊需求开发可自定义Agents,而无需全量调用模型参数,提高整体效率。 无论是端侧还是云端AI,大模型都只是基础,真正的价值在于繁荣的应用生态和强大的工具集。Agent通过调用多方资源,连接不同应用,实现价值传递。苹果在2024年4月发布的Ferret-UI技术,能够建立对UI元素的基本理解,并通过分层次的任务设计,最终实现对用户指令的理解和响应,这就是一种基于视觉构建主动工作流Agent的思路,进而可以使AI真正串联起苹果生态下的诸多应用。
当然,端侧AI的发展任重而道远,由于“安迪-比尔定律”的存在,硬件的发展必然会被软件吞噬掉一部分的性能,因此在当前阶段下,云端协同可以说是一种必然的选择。尽管纯端侧AI是未来的发展方向,但目前仍处于积极探索阶段。通过高质量数据训练和云端隐私方案优化,端侧AI可以从“可用”向“好用”发展。
云侧模型在性能上领先,而端侧AI的独立性和即时性则优势明显。未来,云端协同的模型有望通过高质量数据训练和云端隐私方案的优化,逐步提升用户体验。苹果的Apple Intelligence就是一个典型例子,它通过云端模型处理复杂任务,同时保留了端侧的即时响应能力。同时端侧AI的发展将带来大量的云端推理算力需求,以Composio开发者的测试为例,使用Claude的Computer Use功能执行简单任务,如查找电影、餐厅推荐、在线订餐和购物,消耗了大量的tokens,这些简单的操作都可能花费超过30美元。
毫无疑问,云协同是未来的发展方向,AI Agent有望扛起其发展的大旗。AI Agent在端侧应用中扮演着核心角色,通过解决端侧模型的性能、参数量和功耗问题,提供主动工作流配置和性能优化。生态搭建需要AI Agent调用多方资源,实现价值连接,进而为云侧模型发展带来强劲需求。