
包邮零基础开发AI AGENT――手把手教你用扣子做智能体

- ISBN:9787121483714
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:324
- 出版时间:2025-01-01
- 条形码:9787121483714 ; 978-7-121-48371-4
本书特色
(1)不懂编程是很多人开发Agent的痛点,扣子提供了一个零门槛开发Agent的平台。通过可视化设计,不懂编程也能开发Agent。
(2)没有开发思路也不用担心,本书详细介绍了开发Agent的实施框架,即明确应用场景、梳理业务流程和分析痛点、梳理Agent的功能定位和开发需求、绘制Agent的运行流程图、设置大模型及参数、设计提示词、配置Agent技能、设计用户沟通页面、测试与调优、发布。只要懂业务就能开发Agent,如果懂代码就可以更好地开发Agent。
(3)AI Agent在个人工作提效、企业降本增效、提升生产力上都有巨大潜力。掌握先进生产力,快人一步。
内容简介
Agent(智能体)是大模型落地的重要方向,是AI技术的下一个风口。为了让更多非技术出身的人能够通俗地理解Agent,并零门槛利用Agent开发平台设计自己的Agent,我们撰写了本书。 本书分为入门篇、工具篇、实战篇。入门篇介绍了Agent的概念、发展、与Prompt和Copilot的区别,Agent对个人和企业的价值,以及开发Agent需要掌握的基础知识。工具篇详细介绍了Agent开发平台的演进,盘点了国内的主流Agent开发平台,重点介绍了扣子平台的操作要点,并提出了Agent开发的通用流程。实战篇围绕5个典型的Agent使用场景,详细介绍了11个Agent的开发过程。 本书适合对AI感兴趣的读者阅读,包括学习Agent的开发者、想要提升工作效率的职场人、推动企业AI深化应用的管理者、希望在AI领域创业的人、学校的老师和学生等。 无论你是哪种类型的读者,本书都能帮助你系统并且轻松地掌握Agent从概念到实操的相关知识、技能和方法,让你在AI时代更好地适应工作和生活。
前言
以ChatGPT的发布为标志,我们似乎进入了一个新的时代。生成式AI(人工智能)技术正在以前所未有的速度发展。AI技术被认为是一项颠覆性的创新技术,甚至被认为催生了第四次工业革命。截至2024年10月,我国大模型的注册用户数超过6亿,人工智能企业已超过4500户,完成备案并上线的生成式人工智能服务大模型超过200个。
当您阅读本书时,相信您对AI技术已不再陌生,您身边的人,或多或少、或主动或被动,对AI技术可能都有一定的了解。有的人在日常工作中已经离不开AI工具了,借助各类AI工具,工作效率和工作质量都有了明显提高;有的人的商业嗅觉敏锐,已经投身于AI应用的创业大潮中;有的人看到了AI技术未来会带来企业运营模式和成本结构的改变,开始在自己的企业中引进AI数字员工,实现降本增效。当然,也有的人虽然了解AI概念,但亲自使用AI工具的频率还不高。
总体来看,目前还处于AI技术发展的早期,如何将大模型应用到具体的业务场景中,实现商业价值变现,是AI创业者和从业者在探索的重要课题。在这一背景下,AI Agent(智能体,简称Agent)应运而生,成为AI落地的重要方向。
Agent是利用大模型构建的面向业务场景的AI应用,在大模型能力的基础上,通过记忆、规划、使用工具等能力,能够执行更复杂的任务。与使用Prompt(提示词)和大模型对话相比,Agent更智能、更有效。
目录
入门篇——人人都需要AI Agent
第1章 为什么要学习AI Agent 3
1.1 初步认识Agent 3
1.1.1 Agent的概念与发展 3
1.1.2 Agent是高层级的AI技术应用 5
1.1.3 Agent的特点与能力 7
1.2 Agent让大模型更可用 8
1.2.1 大模型 Agent,实现AI应用场景化 8
1.2.2 Agent让传统软件更智能 9
1.2.3 百花齐放,Agent是下一代应用 11
1.3 Agent对个人和企业的价值 12
1.3.1 Agent影响个人工作和生活方式 12
1.3.2 Agent助力企业降本增效 14
第2章 开发Agent的知识储备 18
2.1 了解Agent的工作原理 18
2.1.1 Agent的基本决策流程:感知—规划—行动 18
2.1.2 Agent的4大能力:规划、记忆、使用工具、行动 19
2.1.3 Agent相关术语 20
2.2 规划Agent业务场景所需的业务流程知识 24
2.2.1 开发Agent为什么要学习业务流程知识 24
2.2.2 Agent开发者的业务流程工具箱 26
2.3 开发Agent是否需要掌握编程技术 30
2.3.1 借助Agent开发平台,不会编程也可以开发Agent 30
2.3.2 掌握编程技术,有助于Agent开发进阶 32
工具篇——Agent开发很简单
第3章 认识Agent开发平台 35
3.1 Agent开发平台的演进 35
3.1.1 什么是Agent开发平台 35
3.1.2 国外的Agent开发平台的进化历程 37
3.1.3 Agent开发平台的发展趋势 40
3.2 国内的Agent开发平台速览 41
3.2.1 国内的Agent开发平台梳理 41
3.2.2 Agent开发平台综合对比 49
3.3 扣子国内版 52
3.3.1 扣子的特点 52
3.3.2 扣子的功能布局与使用技巧速览 53
第4章 开发Agent的流程与策略 58
4.1 开发Agent的通用流程 58
4.1.1 开发Agent的“3-10”实施框架 58
4.1.2 规划Agent 59
4.1.3 设计Agent 61
4.1.4 上线Agent 67
4.2 开发Agent的策略 69
4.2.1 懂场景和业务,比懂AI技术更重要 70
4.2.2 通过工具拓展能力,是Agent具有价值的关键 70
4.2.3 坚持小而美,聚焦特定的应用场景和功能 71
4.2.4 把Agent当成助手,而不是一个完全托管的解决方案 71
第5章 Agent开发的功能模块详解——插件、工作流、图像流 72
5.1 插件 72
5.1.1 什么是插件 72
5.1.2 在扣子的插件商店中给Agent配置插件 80
5.1.3 通过API文档创建插件 83
5.2 工作流 92
5.2.1 工作流的组成 93
5.2.2 工作流节点详解 94
5.2.3 创建、链接测试及发布工作流 112
5.3 图像流 114
5.3.1 图像流的组成 115
5.3.2 图像流的工具详解 115
5.3.3 创建和使用图像流 123
5.3.4 图像流实战案例——换脸 126
第6章 Agent开发的功能模块详解——知识库、记忆与对话体验 128
6.1 知识库 128
6.1.1 什么是Agent知识库 128
6.1.2 Agent知识库的功能 128
6.1.3 Agent知识库的运行逻辑 129
6.1.4 创建知识库 131
6.1.5 使用知识库 142
6.2 变量 144
6.2.1 什么是变量 144
6.2.2 变量的应用 145
6.3 数据库 146
6.3.1 什么是数据库 146
6.3.3 Agent数据库的应用 147
6.4 卡片 150
6.5 其他技能项 153
6.5.1 长期记忆 153
6.5.2 文件盒子 154
6.5.3 对话体验及角色 157
实战篇——5大场景、11个Agent案例
第7章 开发专业分析类Agent 163
7.1 业务场景解读:对特定领域长文档的深度理解与专业输出 163
7.1.1 什么是专业分析类Agent 163
7.1.2 专业分析类Agent的使用场景 164
7.1.3 专业分析类Agent的3大核心功能 165
7.2 入门案例1:AI投标助手 166
7.2.1 规划Agent:自动检索招标文件关键信息的投标助手 166
7.2.2 AI投标助手的开发过程详解 168
7.2.3 AI投标助手的运行效果 179
7.3 进阶案例2:调研诊断Agent 182
7.3.1 规划Agent:可替代初级顾问的AI数字员工 182
7.3.2 调研诊断Agent的开发过程详解 185
7.2.3 调研诊断Agent的运行效果 198
7.4 举一反三:专业分析类Agent的开发小结 202
第8章 开发角色扮演类Agent 204
8.1 业务场景解读:让Agent具有鲜明的人物个性及能力标签 204
8.1.1 什么是角色扮演类Agent 204
8.1.2 角色扮演类Agent的使用场景 204
8.1.3 角色扮演类Agent的核心功能和开发要点 205
8.2 入门案例1:小学生的英语口语陪练Agent 206
8.2.1 规划Agent:小学生的英语口语陪练引导老师 206
8.2.2 小学生的英语口语陪练Agent的开发过程详解 207
8.2.3 小学生的英语口语陪练Agent的运行效果 209
8.3 进阶案例2:模拟面试官Agent 210
8.3.1 规划Agent:帮助提升面试水平的模拟面试官 210
8.3.2 模拟面试官Agent的开发过程详解 212
8.3.3 模拟面试官Agent的运行效果 215
8.4 进阶案例3:多专家Agent 218
8.4.1 多Agent系统的概念与现状 218
8.4.2 设计意大利旅行Agent 219
8.5 举一反三:角色扮演类Agent的开发小结 230
第9章 开发知识问答类Agent 231
9.1 业务场景解读:基于对知识的理解提供更专业的回复 231
9.1.1 什么是知识问答类Agent 231
9.1.2 知识问答类Agent的使用场景 233
9.1.3 知识问答类Agent的3大开发要点 234
9.2 入门案例1:公司首席知识官Agent 236
9.2.1 规划Agent:变被动管理企业知识为主动响应 236
9.2.2 公司首席知识官Agent的开发过程详解 238
9.2.3 公司首席知识官Agent的运行效果 247
9.3 进阶案例2:全能助理问问Agent 249
9.3.1 规划Agent:万能问答小助手 249
9.3.2 全能助理问问Agent的开发过程详解 250
9.3.3 全能助理问问Agent的运行效果 260
9.4 举一反三:知识问答类Agent的开发小结 263
第10章 开发内容营销和自媒体运营类Agent 264
10.1 业务场景解读:基于丰富的语料和语音能力提高大模型的创作力 264
10.1.1 什么是内容营销和自媒体运营类Agent 264
10.1.2 内容营销和自媒体运营类Agent的使用场景 265
10.1.3 内容营销和自媒体运营类Agent的核心功能和开发要点 266
10.2 入门案例1:每日AI简报Agent 266
10.2.1 规划Agent:自动化的新媒体运营官 266
10.2.2 每日AI简报Agent的开发过程详解 267
10.2.3 每日AI简报Agent的运行效果 271
10.3 进阶案例2:抖音热点视频转小红书图文笔记Agent 273
10.3.1 规划Agent:跨平台自动转换文案的达人 273
10.3.2 抖音热点视频转小红书图文笔记Agent的开发过程详解 275
10.3.3 抖音热点视频转小红书图文笔记Agent的运行效果 285
10.3.4 复盘 286
10.4 举一反三:内容营销和自媒体运营类Agent的开发小结 287
第11章 开发效率办公类Agent 289
11.1 业务场景解读:日常办公流程的智能化与自动化 289
11.1.1 什么是效率办公类Agent 289
11.1.2 效率办公类Agent的使用场景 290
11.1.3 效率办公类Agent的核心功能和开发要点 291
11.2 入门案例1:文本纠错助手Agent 292
11.2.1 规划Agent:提高文档质量的AI助手 292
11.2.2 文本纠错助手Agent的开发详解 294
11.2.3 文本纠错助手Agent的运行效果 298
11.3 进阶案例2:会议纪要助手Agent 299
11.3.1 规划Agent:可以自动化生成会议纪要的AI数字员工 299
11.3.2 会议纪要助手Agent的开发过程详解 301
11.3.3 会议纪要助手Agent的运行效果 311
11.4 举一反三:效率办公类Agent的开发小结 313
相关资料
AI技术正在迅速渗透到社会的各个领域,以独特的方式深刻影响并重塑我们的工作和生活方式。在这个快速变革的时代,掌握AI技术以提升工作效率和丰富生活体验,已成为现代人不可或缺的核心能力。叶涛等凭借多年跨学科研究经验,以及在管理顾问职业生涯中积累的丰富的专业知识和实践案例,成功地将“懂AI的业务专家”和“懂业务的AI专家”两种角色有机融合。本书是集理论深度与实践指导于一体的经典之作。姜华大连理工大学教授、博士生导师、学科评价中心主任 叶涛为我们机构提供了长达5年的顾问服务,依托10多年企业咨询与管理实践经验,从AI技术场景应用的独特视角撰写了本书。本书看似是介绍如何使用Agent开发平台的工具书,实则是传授如何用业务思维驾驭AI工具的方法论。所以,你看本书完全不会感觉晦涩难懂,而是像听一名接地气的产品经理或专业顾问娓娓道来。钟宏武4.1 开发Agent的通用流程
第2章介绍了开发Agent需要掌握的基本知识,第3章介绍了开发Agent常用的平台。那么,如何运用这些知识和平台,从零开始设计一个Agent呢?本节就来系统性地讲解开发Agent的流程与步骤。
4.1.1 开发Agent的“3-10”实施框架
开发Agent的流程与开发传统软件的流程完全不同。一个软件项目从开发到上线,通常需要配置项目经理、产品经理、系统架构师、UI设计工程师、开发工程师(前端、后端工程师)、测试工程师等岗位和角色,并遵循软件开发的一般流程和各项规范。当然,创业团队开发软件,也会出现一两个工程师跑通全模块的情况,但通常在软件的交互体验、功能稳定性等方面容易出现bug。
基于Agent开发实践,我们总结出“3-10”实施框架,如图4-1所示,即通常会按照3个阶段,10个环节开发一个具备生产级应用、商业化能力的Agent。
(1)规划Agent的阶段。该阶段包括定义Agent的应用场景、梳理业务流程和分析痛点、梳理Agent的功能定位和开发需求3个环节。
(2)设计Agent的阶段。包括绘制Agent的运行流程图、设置大模型及参数、设计提示词、配置Agent技能、设计用户沟通页面5个环节。
(3)上线Agent的阶段。包括测试与调优、发布两个环节。
图4-1
4.1.2 规划Agent
规划Agent的阶段如同项目立项的可研分析与评估或软件开发的蓝图设计阶段。在这个阶段需要回答以下问题。
(1)What。这是一个什么样的Agent?它的使用场景是什么?它的用户是谁?它能做什么?
(2)Why。为什么要开发这个Agent?它能够解决什么问题?与传统业务流程相比,它的价值是什么?与直接使用大模型对话相比,它的价值是什么?
(3)How。Agent如何实现所定义的功能?
规划Agent是开发Agent的底层思考,用以指导Agent的具体设计。
4.1 开发Agent的通用流程
第2章介绍了开发Agent需要掌握的基本知识,第3章介绍了开发Agent常用的平台。那么,如何运用这些知识和平台,从零开始设计一个Agent呢?本节就来系统性地讲解开发Agent的流程与步骤。
4.1.1 开发Agent的“3-10”实施框架
开发Agent的流程与开发传统软件的流程完全不同。一个软件项目从开发到上线,通常需要配置项目经理、产品经理、系统架构师、UI设计工程师、开发工程师(前端、后端工程师)、测试工程师等岗位和角色,并遵循软件开发的一般流程和各项规范。当然,创业团队开发软件,也会出现一两个工程师跑通全模块的情况,但通常在软件的交互体验、功能稳定性等方面容易出现bug。
基于Agent开发实践,我们总结出“3-10”实施框架,如图4-1所示,即通常会按照3个阶段,10个环节开发一个具备生产级应用、商业化能力的Agent。
(1)规划Agent的阶段。该阶段包括定义Agent的应用场景、梳理业务流程和分析痛点、梳理Agent的功能定位和开发需求3个环节。
(2)设计Agent的阶段。包括绘制Agent的运行流程图、设置大模型及参数、设计提示词、配置Agent技能、设计用户沟通页面5个环节。
(3)上线Agent的阶段。包括测试与调优、发布两个环节。
图4-1
4.1.2 规划Agent
规划Agent的阶段如同项目立项的可研分析与评估或软件开发的蓝图设计阶段。在这个阶段需要回答以下问题。
(1)What。这是一个什么样的Agent?它的使用场景是什么?它的用户是谁?它能做什么?
(2)Why。为什么要开发这个Agent?它能够解决什么问题?与传统业务流程相比,它的价值是什么?与直接使用大模型对话相比,它的价值是什么?
(3)How。Agent如何实现所定义的功能?
规划Agent是开发Agent的底层思考,用以指导Agent的具体设计。
1.定义Agent的应用场景
“场景”这个词在很多领域都有广泛的应用。它通常指的是一个特定的空间、时间或情境,包含了某种活动、事件或行为的发生。它描述了用户在使用产品或服务时所处的具体环境和情境。定义应用场景的主要目的是提高对特定用户、特定生活或工作情境问题的处理能力,提高产品或服务满意度。
Agent是AI技术的场景化应用,其天然就带有场景化的属性。因此,在设计Agent之前,有必要对其应用场景进行定义。
定义Agent的应用场景通常包括确定Agent的用户群体、Agent的用途、Agent的价值等要素。
例如,一个旅行规划Agent的用户群体是有旅行需求的群体,可能是情侣、父母和孩子、团队等多种群体。该Agent的用途是进行旅行的行程规划,提供包括每日行程、交通出行、旅游景点、住宿、美食、纪念品等的综合信息。该Agent的价值是能够根据用户画像和旅行诉求,检索旅行和酒店App、美食App、天气App、短视频App等,集成景点、交通、住宿、美食、打卡、穿衣等信息,将其一体化、组合式呈现给用户。
再如,第7章的案例——AI投标助手,是一个检索并生成投标文件的关键信息的 Agent,其用户群体是企业中负责投标的市场部门或商务部门的员工,或参与投标工作的技术部门的员工。该Agent的用途是快速阅读用户上传的招标文件,给用户生成准确、全面、结构化的招标文件的关键信息,并准确回答用户关于招标文件的各种问题。该Agent的价值是节省人工阅读长达几十页招标文件的时间成本,并方便招标文件的关键信息在不同人员间准确、全面传递,减少人工检索信息的缺漏和传递的偏差。
通过以上两个案例不难看出,定义Agent的应用场景是对规划Agent中“What”的回答。一个高质量的Agent,应该有明确且具体的用户群体、有效且精准的用途。更重要的是,Agent要能够具有独特价值。例如,旅行规划Agent的独特价值就是减少用户切换多个不同功能的App进行信息检索、手动规划行程的工作量,能够提供一站式、集成化的旅行规划服务。AI投标助手的独特价值是相对于传统人工信息检索、传递的低效率、信息衰减而言的,通过长文档理解能力,减少人工阅读和查找招标文件的工作量。
2.梳理业务流程和分析痛点
要想实现Agent的功能,就需要针对Agent的应用场景进行业务流程分析,系统化梳理业务逻辑,并分析痛点,寻找Agent的独特价值,以确保Agent能够有效地解决实际问题。
例如,对于AI投标助手,基于其应用场景,我们可以梳理出以下常规的业务流程:①购买并获取招标文件;②把招标文件分发给商务、业务相关人员;③标记与解读招标文件的关键信息;④制定投标策略;⑤分模块制作投标文件;⑥审核标书;⑦投标。
对于这样的业务流程,识别出两大痛点:痛点一,信息查找费时费力。从冗长的招标文件中找到关键信息(如开标时间和地点、投标人资格要求、投标保证金、*高限价、付款条件、投标文件组成、评分规则、合同条款等)需要花费大量的人工时间,并且要足够耐心和仔细。痛点二,信息在传递时容易丢失。制作一份投标文件,通常需要多方协作完成,例如技术人员负责制定技术方案,商务人员负责提供资质、业绩等信息,报价人员负责测算价格,审核人员对照招标评审要点审核投标文件等。招标文件的关键信息在不同岗位间传递,在这个过程中,很容易出现信息丢失、理解偏差等风险,导致投标文件作废或者得分不佳,影响中标。
通过分析业务流程的环节,我们可以从更细致的颗粒度理解Agent应用场景下的业务逻辑,确保设计的Agent更贴近真实的业务流程,更好地消除用户痛点,满足用户需求。
3.梳理Agent的功能定位和开发需求
在梳理业务流程和分析痛点的基础上,我们要进一步梳理出Agent的功能定位和开发需求,用于指导Agent的具体设计。梳理Agent的功能定位和开发需求要围绕Agent的能力实现展开,包括Agent是否需要通过配置专有知识库增强特定领域的大模型输出能力,Agent执行的任务是否需要通过工作流分解为多个子任务,Agent是否需要调用插件获得拓展能力。
例如,AI投标助手需要把人工阅读投标文件识别关键信息的流程转变为由AI系统协助读取招标文件的流程,其功能定位和开发需求经过梳理,包括:①配置知识库,掌握招投标专业知识,熟悉各类招投标项目的文件结构、术语、内容、关键信息等。②大模型需要具备长文档理解和输出能力,一份招标文件长达几十页甚至上百页,必须选择合适的大模型和token参数(输入和输出的文字长度)。③Agent的任务流程较短,不要使用工作流。④Agent需要具备阅读和检索用户上传的文档(通常是pdf、doc、图片等格式的)的技能,需要配置相关功能插件。④输出的结果要有极高的准确性和全面性,需要防止大模型出现“幻觉”。
4.1.3 设计Agent
在规划Agent后,就可以使用Agent开发平台开发Agent了。
1.绘制Agent的运行流程图
Agent的运行流程图对Agent执行任务的节点、节点的类型、节点的逻辑关系、节点的先后次序等进行图形化呈现,其作用是让开发者根据Agent开发平台的功能模块,整体做好Agent的结构化布局和功能路径规划,确保后续开发Agent的效率和Agent的可靠性。Agent的运行流程图就像一张设计图,指导整个施工过程。
图4-2所示为一个抖音视频转小红书爆款文案Agent的运行流程图,该图呈现了Agent从开始到结束的任务执行过程、不同的功能节点(大模型、插件、卡片等)、具体的活动内容、节点间的关联关系等。这张流程图对Agent的模块构成、各模块的功能进行了清晰定义。接下来,我们就可以详细设计和测试每个模块了。
图4-2
对于需要配置工作流的Agent,通常需要绘制如图4-2所示的运行流程图。对于比较简单的、不需要配置工作流的Agent,可以参考图4-3绘制运行流程图。图4-3所示为AI投标助手的运行流程图。这个Agent不需要引入工作流,但需要满足用户的3种需求:一是用户上传招标文件,Agent按照格式要求输出关键信息;二是用户针对上传的招标文件提问,Agent基于招标文件输出精确的答案;三是用户提出不基于上传的招标文件的问题,Agent给予专业的回答。要想满足用户的3种需求,Agent需要具备调用插件、检索知识库的技能,同时需要通过大模型的提示词准确地响应用户需求,并按照格式要求输出。绘制这样的Agent运行流程图有利于快速开发Agent。
图4-3
2.设置大模型及参数
大模型是Agent的大脑,无工作流模式的Agent通常只会使用单一的大模型进行思考和回答,工作流模式的Agent则可能会多次使用不同的大模型。
设置大模型主要包括大模型选型、设置大模型的参数两个方面。大模型选型是根据Agent的任务需求和应用场景,选择合适的大模型厂商及具体的模型型号。不同的大模型在处理不同的任务时会存在性能差异。一些大模型也推出了不同上下文长度的模型产品。例如,扣子的豆包模型分为豆包·Function call模型32K(指模型一次能够处理32,000 token的文本。token是文本中*小的语义单元,一个token通常等于1~1.8个汉字)和豆包角色扮演模型32K,Kimi模型分为Kimi(8K)、Kimi(32K)、Kimi(128K)。要想快速了解大模型的回答效果,可以使用扣子的模型广场功能,进行模型PK,以便选用合适的大模型。*大回复长度则要根据输入模型的文本长度和模型输出的文本长度来判断,8K、32K模型可以满足一般的问答对话任务,但对于长文档的理解和输出任务,如阅读报告、撰写小说等,则需要选择32K、128K等处理长上下文的模型。
设置大模型的参数一般包括生成多样性、输入及输出设置。图4-4(1)和图4-4(2)所示分别为扣子和文心智能体平台的大模型参数设置页面。生成多样性是非常重要的大模型参数,它定义大模型的回复是更精确、更稳定,还是更灵活、更有创意。通常而言,专业问答类、特定领域检索类Agent,要求大模型回答得更精确、更稳定;聊天类、文案创作类Agent,要求大模型回答得更灵活、更有创意。输入设置主要是对上下文对话轮数的设置。开发者需要合理设置大模型的*大回复长度,特别是对有长文本输出需求的Agent,如创作长文档、撰写报告类Agent,需要预测文本长度。随着Agent开发平台开始收费,选择大模型需要考虑经济性问题,合理地设置这些参数,既能确保大模型的效果,也能减少不必要的token消耗。
图4-4
3.设计提示词
在开发Agent时,设计提示词也是很重要的环节,扣子称之为人设与回复逻辑。提示词是Agent调用大模型执行任务的指令,是Agent规划、思考能力的体现。单Agent模式下的提示词设计和工作流模式下的提示词设计有所不同。
在单Agent模式下,通常只有一个提示词,Agent要靠这个提示词来调用大模型、各类插件、知识库、数据库等功能模块,并按照预定义的格式输出结果。单Agent模式下的提示词,就像一个系统规划师。因此,撰写单Agent模式下的提示词一般会比撰写工作流模式下的提示词更复杂,难度更大,要求更高。
在工作流模式下,只有大模型节点才需要提示词。提示词的功能是调用大模型执行所在节点的任务。与单Agent模式下的提示词指挥全局有所不同,工作流模式下的提示词只在其所在的节点起作用,不影响其他节点运行。如果一个工作流中有多个大模型,就需要配置多个提示词,每个提示词都只会匹配各自节点的大模型。如图4-5所示,在工作流模式下,在选择大模型节点后,会出现大模型节点页面,开发者需要选择大模型、设置大模型参数、设计提示词等。
图4-5
无论在哪种模式下,设计提示词的方法和技巧都是通用的。不同场景的Agent,在提示词结构上有所差异,如角色扮演类Agent的提示词包括人设/角色、性格特点、语言特点、行为方式、限制/注意事项,工具类Agent的提示词包括人设/角色、技能、知识、限制/注意事项,图像创作类Agent的提示词包括人设/角色、详细描述、风格、色彩、情感表达、技能、限制/注意事项。要想学习撰写Agent提示词的技巧,可以看Agent开发平台的相关说明文档,或者Agent商店中公开配置的Agent 提示词。
4.配置Agent技能
配置Agent技能是让Agent掌握使用各类工具的能力,从而实现Agent的能力扩展。配置Agent技能包括配置插件/API、工作流、知识库、数据库、变量、卡片等。
在“绘制Agent的运行流程图”部分,我们已经规划了Agent的技能,如在哪个环节调用插件,在哪个环节调用知识库,在哪个环节使用卡片等。第4章和第5章会详细介绍插件、工作流、图像流、知识库、变量、数据库、卡片等的使用方法,这里不重复介绍。
5.设计用户沟通页面
以上环节已经完成了Agent的核心功能开发,设计用户沟通页面是为了便于用户快速理解、正确使用Agent。设计用户沟通页面包括设计开场白、引导/预置问题、快捷指令、背景图片、语音/数字人等。图4-6所示为扣子的设计用户沟通页面的模块。“开场白文案”是用户进入Agent后自动展示的引导信息。它的主要作用是帮助用户理解Agent的用途,以及如何与其进行交互。“开场白预置问题”用于引导用户提问,类似于提问示例。“背景图片”可以让Agent的显示效果与众不同。选择“语音”可以让Agent用设定的数字人声音播放输出的文本内容,并且可以让用户实现与Agent的语音互动。
图4-6
设计用户沟通页面不影响Agent的能力输出和功能发挥。开发者可以根据Agent的应用场景和功能,使用通俗化、场景化的自然语言。
4.1.4 上线Agent
1.测试与调优
在上线Agent前,通常需要多次测试与调优。在Agent开发平台的“预览与调试”窗口,可以对Agent进行测试与调整。
对话调优是所有Agent开发平台都具备的功能,即在发布Agent前,通过用户对话测试Agent的回答效果,判断Agent功能配置的有效性。但是对于复杂工作流的Agent,仅通过对话输入和Agent结果输出,很难识别和发现Agent内部运行过程中存在问题的环节,修正难度较大,所以我们推荐扣子的调试台功能。
图4-7所示为扣子的“预览与调试”窗口。我们可以通过对话测试Agent的能力,如输入“北京空气质量”,得到Agent的回答。我们单击“调试”按钮,可以打开“调试详情”窗口。调试详情包括耗时、调用树/火焰图、节点详情、输入、输出等信息。
作者简介
叶涛壹启同辉创始人,拥有管理咨询和AI培训咨询双重工作背景与经验。AI时代新咨询倡导者:15年管理咨询工作经验,中国企业联合会战略咨询专业委员会成员,全国中小企业管理咨询服务专家信息库专家。曾担任知名上市咨询机构董事、常务副总裁。专注于帮助成长性企业构建AI时代的组织能力,实现经营突破。主导过100多个咨询项目成功交付,辅导过多家企业实现业绩倍增和组织升级。AI场景化落地赋能师:系统提出个人和组织应用AI技术的底层方法论——C-SMT能力框架,基于“业务场景”提供AI赋能培训和企业AI咨询服务。“AICX”公众号创办人。“AICX”是一个备受好评的专业自媒体账号,分享AI技术在工作、生活中的应用。管锴武汉大学管理学硕士,拥有多年企业高层管理经验和6年企业管理咨询经验。致力于研究如何将AI技术有效地应用于企业运营中,以实现降本增效的目标。张心雨西北工业大学工学学士,香港理工大学管理学硕士。曾在头部地产公司从事人力资源管理工作多年。持续研究AI技术在工作和生活中的应用。
-
造神:人工智能神话的起源和破除 (精装)
¥32.7¥88.0 -
大数据技术导论(第2版)
¥28.9¥41.0 -
人人都能学AI
¥40.4¥68.0 -
人工智能
¥20.3¥55.0 -
过程控制技术(第2版高职高专规划教材)
¥27.6¥38.0 -
WPS OFFICE完全自学教程(第2版)
¥97.3¥139.0 -
智能视频目标检测与识别技术
¥43.5¥59.0 -
人工智能基础及应用
¥36.0¥48.0 -
深入浅出软件架构
¥117.2¥186.0 -
计算机网络基础(微课版)
¥39.0¥55.0 -
剪映:即梦AI绘画与视频制作从新手到高手
¥66.0¥89.0 -
软件设计的哲学(第2版)
¥52.0¥69.8 -
人工智能的底层逻辑
¥58.7¥79.0 -
剪映+PREMIERE+AIGC 短视频制作速成
¥73.5¥98.0 -
剪映AI
¥52.0¥88.0 -
数据采集与处理
¥36.4¥49.8 -
PLC结构化文本编程(第2版)
¥57.9¥79.0 -
中小型网络组建与管理
¥30.7¥43.0 -
上海市老年教育推荐用书:老年人智慧生活(进阶篇)
¥32.5¥45.0 -
上海市老年教育推荐用书:老年人智慧生活(初级篇)
¥29.3¥45.0