目录
Introduction
人类在处理杂乱无章的模式识别任务方面表现出色,但他们常常依赖各种工具——比如书籍、谷歌搜索或计算器——来补充已有的知识,从而得出结论。同样,生成式人工智能模型也可以通过训练使用工具,来获取实时信息或提出现实世界中的行动建议。
例如,一个模型可以利用数据库检索工具来访问特定信息,如某位客户的购买记录,从而生成个性化的购物推荐。又或者,根据用户的请求,模型可以调用各种 API,代表用户发送邮件回复同事,或完成一笔金融交易。
为了实现这些能力,模型不仅需要访问一套外部工具,还必须具备自主规划和执行任务的能力。这种将推理、逻辑能力与外部信息访问整合进生成式 AI 模型的方式,引出了“智能体”(agent)的概念——一个超越单一生成模型本身能力的程序。
本白皮书将深入探讨这些内容以及相关方面。
What is an agent?
在最基本的形式中,生成式 AI 智能体可以被定义为:一个应用程序,它通过观察世界并利用手头可用的工具对其进行操作,以实现某个目标。智能体具有自主性,能够在没有人类干预的情况下独立行动,尤其是在被赋予明确目标或任务的情况下。
此外,智能体在实现目标的过程中也可以表现出主动性。即使没有来自人类的明确指令,智能体也能够推理出“接下来该做什么”以实现最终目标。
虽然“智能体”在人工智能中的概念非常广泛而强大,但本白皮书聚焦于目前生成式 AI 模型所能构建的特定类型的智能体。
为了理解智能体的内部工作机制,我们首先需要介绍驱动其行为、动作和决策的基础组件。这些组件组合在一起,构成了所谓的“认知架构”(cognitive architecture)。通过不同组件的混合与搭配,可以实现多种类型的认知架构。
而从核心功能出发,一个智能体的认知架构至少包含三个关键组件,如图所示。
The model
在智能体的语境中,“模型”是指将被用作智能体流程中的中心决策者的语言模型(Language Model,简称 LM)。智能体可以使用一个或多个具备指令驱动的推理与逻辑能力的语言模型,无论其规模是小型还是大型,例如能够支持 ReAct、Chain-of-Thought(思维链)、Tree-of-Thoughts(思维树)等框架的模型。
所使用的模型可以是:
- 通用型语言模型
- 多模态模型
- 或根据特定智能体架构需求进行微调的模型
为了在生产环境中获得最佳效果,建议选择最适合目标应用的模型,理想情况下,该模型还应当在与你计划在智能体认知架构中使用的工具相关的数据特征上接受过训练。
需要注意的是,模型通常不会针对智能体的具体配置(例如工具选择、任务编排或推理流程)进行预训练。然而,我们可以通过示例进一步微调模型,让它更适配智能体的任务,比如提供一些展示智能体如何在不同上下文中使用特定工具或执行推理步骤的案例,从而增强其实际执行能力。
The tools
尽管基础模型(Foundational Models)在文本和图像生成方面表现惊艳,但它们仍然受限于无法与外部世界交互的局限性。而工具(Tools)正是弥合这一差距的关键,它们赋予智能体与外部数据和服务交互的能力,使其能执行远超底层模型本身的多种操作。
工具可以有多种形式和复杂程度,通常遵循常见的 Web API 调用方式,如 GET、POST、PATCH 和 DELETE。 例如,一个工具可以用来:
- 更新数据库中的客户信息
- 获取天气数据,从而影响智能体向用户提供的旅行推荐
借助这些工具,智能体就能访问并处理现实世界中的信息,这使它们能够支持如检索增强生成(Retrieval-Augmented Generation,RAG)等更专业的系统,显著扩展其能力,突破基础模型的原生限制。
我们将在后文中更详细地讨论工具的类型与应用,但这里最关键的理解是:
工具是连接智能体内部能力与外部世界的桥梁,解锁了更广泛的可能性。