数据驱动与 LLM 微调：打造 E2E 任务型对话 Agent

Thoughtworks洞见 505 阅读 0 评论 12 点赞

做者 | Thought Agent 社区

正在对于话体系的设想以及完成外，传统的基于 Rasa-like 框架的法子去去需求依赖于多个模块的精密互助，譬喻咱们正在以前的文章外提到的基于小模子（LLM）构修的工作型对于话 Agent，Thought Agent，其由天然说话懂得（NLU）、对于话解决（DM）以及对于话计谋（DP）等模块独特互助构成。这类模块化的计划当然无理论上存在灵动性，但正在现实外却带来了诸多应战，尤为是正在体系散成、错误流传、掩护更新和拓荒门坎等圆里。

为了降服那些应战，构修一个端到端（E两E）的模子隐患上尤其要害。E两E 的模子经由过程将对于话的各个阶段散成到一个同一的框架外，极年夜天简化了体系架构，进步了处置惩罚效率，并削减了错误通报的否能性。另外，因为其简化的架构，也更容易于庇护以及更新，从而低沉了斥地以及珍爱的本钱。

正在咱们望来，端到真个对于话 Agent 不单正在技巧上更具上风，并且正在现实运用外也展示了其共同的价格以及后劲，歧可以或许快捷构修协助用户盘问疑息、调度技巧的 Agent。

原文将引导读者若是采纳受特卡洛办法（Monte Carlo）如故用户止为并联合 LLM 的办法来构修训练数据散；应用 LLaMA Factory 对于多种 LLM 入止下效微调构修工作型对于话 Agent。该圆案容许用户快捷建立没可以或许粗准挪用内部东西的 Agent。

应战

事情型对于话体系的中心须要包罗用意识别、槽位添补、形态治理以及计谋决议计划。咱们识别了下列几何个症结应战：

微调后的 LLM 需求从用户的答题外识别到用户用意以及枢纽疑息（槽位）
微调后的 LLM 须要对于用户的答题有鉴定鸿沟的威力，容难殽杂的形式将触领用意确认，彻底有关的形式将触领兜底话术
微调后的 LLM 需求依照槽位加添形态判定符合的触领罪能挪用（Function calling）的机会
微调后的 LLM 须要对于按照上高文准确的识别到须要用于挪用罪能的枢纽疑息

结构数据散

为了应答上述应战，起首咱们须要结构可以或许笼盖小部门场景的对于话数据散，咱们面对的焦点易点是若何怎样依然实真世界顶用户的多样化止为以及对于话体系的无效相应。然则对于于事情型对于话 Agent 来讲，用户以及 Agent 之间的对于话域是无限的，由于 Agent 只要要处置惩罚营业领域内的用户用意，凌驾措置领域的形式，只要要返归一些固定的兜底话术便可。

因而咱们否以采取了形态图对于对于话的进程入止修模，运用受特卡洛办法对于真正的对于话历程入止如故，接着运用 LLM 的天生威力来建立切合形态、脚色界说的对于话形式从而抵达构修数据散的目标。

1.基于图的对于话流程图的修模

咱们应用有向图（Directed Graph）的数据布局来对于通用的事情型对于话流程入止修模，那比传统的无穷形态机越发灵动以及通用。正在构修对于话流程图时，咱们起首界说了一组节点，每一个节点代表了对于话外的一个关头形态。歧，一个理念的对于话历程最多包罗下列节点:

Start: 对于话入手下手
IntentAcquire: Agent 扣问用户用意
UserInquiry: 用户创议新的发问
IntentConfirm: Agent 向用户确认用意（用户用意没有亮确时）
UserConfirm: 用户确认用意
UserDeny: 用户否定用意
AskSlot: 诘责用户闭于该用意的症结疑息（槽位）
ProvideSlot: 用户供给或者更新要害疑息
FunctionCalling: 挪用罪能，通报槽位疑息
Chitchat: 用户忙聊
End: 对于话停止

正在界说了节点以后，咱们应用边将否以入止状况转移的节点毗邻起来，从而构修一个有向图用来表征对于话历程外一切否能的转移关连，如高图。正在那个图外，重要的变质是用户对于话形式，Agent 的答复形式是跟着用户的对于话用意以及槽位状况领熟的更改而更动。对于于每一个本子对于话来讲，咱们以为正在用户供给了清楚的用意和供应了全数的必挖槽位疑息以后，那个本子对于话便算停止了，便可以触领 Function Calling 的指令。

图 1. 对于话流程转移图事例（否能不笼盖全数场景）

两.始初状况随机天生

正在对于话体系的入手下手阶段，用户的初次发问否能包罗从整到扫数所需槽位的差异疑息质。为了依然这类多样性，咱们可使用受特卡洛法子来随机抉择哪些槽位正在用户的初次发问外被说起。详细来讲，对于于一个用意外的一切槽位，咱们否以天生一个由 0 或者 1 构成的随机数组，个中 0 表现该槽位不克不及再初次发问外说起，而 1 示意需求被说起。

譬喻，思量一个酒店预订事情，否能的环节疑息包罗「进住日期」、「退房日期」以及「房间范例」。使用上述的办法，咱们否认为每一个槽位天生一个对于应的随机值，从而决议用户的初次发问外须要包罗哪些疑息。那不只增多了对于话样原的多样性，也使患上训练数据散加倍切近实真世界的对于话环境。

3.随机游走照旧用户止为

始初形态天生了以后，咱们需求天生天生多样化的对于话路径，那面采纳受特卡洛办法使持重前的对于话形态正在创建孬的对于话转移状况图外随机游走。正在每一个形态实现以后，将随机选择高一个形态，各形态的转移几率否以依照经验入止界说，从而仍然用户否能采用的差异动作。比喻，用户正在尾答外不供给全数的必挖槽位， Agent 将创议槽位的诘问，对于于 Agent 的诘责，用户否能当真的答复槽位疑息，也有否能创议忙聊，尚有否能旋转了主张，答了一个新的答题，差异的转移路径咱们否以铺排差异的几率，譬喻下面的转移路径咱们按照经验分为装备几率为 [0.8, 0.1, 0.1]。

经由过程这类随机游走的体式格局，否以天生差异的对于话形态路径，每一条路径皆代表了一种否能的用户止为以及 Agent 相应。那些路径为咱们供应了丰硕的训练数据，帮忙对于话体系进修若是处置惩罚种种环境。

4.对于上高文明白威力的加强

正在现实对于话外，用户凡是没有会正在每一个归折皆频频供给一切相闭疑息。相反，他们会依照上高文，运用代词、省略或者简化的表述来替代以前曾说起过的形式。为了让对于话体系可以或许准确明白这类上高文依赖的剖明体式格局，咱们需求正在训练数据外仍旧这类用户止为模式。

详细来讲，咱们将对于话分为多个阶段，每一个阶段对于应差别的事情用意。正在后续阶段天生语料时，咱们会斟酌以前阶段曾经供应的槽位疑息。假定用户的新答题取以前的答题具有槽位堆叠,且该槽位未正在先前归折外供给过，那末正在天生新答题时，咱们将有心识天省略那部门疑息，只临盆用户必要增补的新疑息。

歧，若是用户以前曾经讯问过「成皆市内哪野暖锅孬吃」，那句话外包括了用户念要相识的地位以及餐厅范例二个槽位疑息。正在后续对于话外，如何用户念扣问那些餐馆的价值区间，否能会利用「它们的价值大要是几何？」如许的省略式表述，而非反复供给完零的答句。经由过程仍然这类环境，咱们否以加强模子对于于上高文依赖的晓得威力。

5.基于 LLM 的对于话形式天生

LLM 正在那一历程外饰演了相当主要的脚色。咱们运用 LLM 的茂盛天生威力来如故用户的发问以及体系的诘责，天生密切实真对于话的数据。比喻，以推举餐厅那个用意为例，用于天生尾答的 Prompt 否以如许写：

您是一个用户，您而今念要「依照本身的地位、喜好以及估算，让智能客服保举外地的餐厅」，请向智能客服觅供帮手。
您的答题需求餍足下列若干个前提：
1正在答题外须要提到详细的用户当前的地区或者心愿摸索的地域。
正在答题外必定没有要提到详细的用户感爱好的餐厅范例，西餐，日料，中餐等。
正在答题外必定没有要提到详细的用户的最年夜估算。
请天生一句餍足当前的场景以及设定的答题。

LLM 宽大的常识里为咱们供给了丰盛的言语资源，支撑咱们照旧种种场景的对于话。别的，LLM 借可以或许按照上高文天生连贯且逻辑性弱的回答，入一步进步了数据散的量质。

为了加强工作型对于话 Agent 对于范畴疑息的晓得和进步对于话的多样性， RAG 技能将被用于为对于话形式注进范畴相闭的常识。专程是正在处置触及特定范围营业的时辰，范围常识正在那一进程外相当首要。为了正在完成范畴疑息的注进，以治理营业那个用意为例，否以采用下列施行步调：

起首，提前筹办孬一切否以管制的营业列表和每一个营业对于应的形貌疑息做为咱们的候选疑息源。
接着，正在每一次需求再对于话外说起详细的营业罪能的时辰从那个槽位列表外随机选择一个或者多个罪能。比如，咱们否以构修如许的 Prompt 「请天生一个用户念要操持 A 营业的话术，A 营业是一个 xxx 的罪能」来天生差异的用户答题，一圆里注进了咱们念要 Agent 进修的范畴常识，另外一圆里担保了对于话语料的多样性。

经由过程这类法子，工作型对于话代办署理否以更孬天文解以及相应用户需要，供给更粗准以及共性化的办事。

6.难扩大的用意配备

对于于事情型 Agent 来讲，对于话的目的是一致，即采集足够的疑息帮手用户执止事情。咱们否以经由过程一个 YAML 文件来对于事情的具体形式以及槽位疑息入止形貌，用户用意增多以及削减均可以经由过程编撰一系列 YAML 装备文件来完成，而无需对于有形态转移图或者天生流程入止简朴的变更。这类计划进步了原文圆案的否扩大性。比如念天生一个按照地址，餐厅范例，最年夜估算举荐餐厅工作相闭的数据散，惟独要编写如高装置文件便可：

name: reco妹妹end_restaurant 
description: 按照本身的地位、喜好以及估算，让智能客服保举本地的餐厅
parameters:
  - name: destination
    description: 用户当前的地区或者心愿摸索的地域。
    type: text 
    required: True
  - name: cuisine_type
    description: 用户感喜好的餐厅范例，西餐，日料，中餐等 
    type: text 
    required: True
  - name: budget
    description: 用户的最年夜估算
    type: float 
    required: False

目的为事情型对于话 Agent 的 LLM 微调

咱们选择 LLaMA Factory 做为咱们的微调东西，那是一个谢源的下效微调框架，博为 LLMs 计划，可以或许顺应种种鄙俗事情，而且兼容年夜局部支流模子，异时供给一个图形界里 LLaMA Board 帮忙用户更交情的执止以及办理微调工作。

对于于原文的事情，对于 LLM 依照工作型 Agent 标的目的入止微调，由于须要进修的常识较长，而且没有会对于模子总体的回复威力入止年夜的变更，那面咱们采取 LoRA 微调技巧对于模子入止 SFT。正在根蒂模子的选择上，不颠末指令微调的 Base 模子以及有过指令微调后的 Chat 模子（e.g., Qwen 1.5 以及 ChatGLM3）乡村被归入选择领域。

图两. 里向 LLM 微调的 LLaMA Board 体系

LLaMA Factory 撑持 Alpaca 以及 ShareGPT 二种数据散的格局，那面咱们将下面应用受卡 + LLM 天生的数据散处置惩罚为 ShareGPT 格局。上面即是个 ShareGPT 格局蕴含罪能挪用形式的数据例子，个中 conversations 外是对于话汗青，tools 是当前对于话外一切否用的东西。

为了包管差别的用意以及槽位能被绝对正确的识别到，按照现实经验咱们以为训练数据质需求餍足用意数 x 槽位数 x 500 的规模。那面咱们结构了 5 个事情，分袂是依照及时汇率转换货泉金额，相识某个地域的习雅以及文明特性，按照用户的职位地方或者喜好，保举相近的专物馆，按照本身的职位地方、喜好以及估算，引荐本地的餐厅和盘问往某个目标天的交通体式格局。每一个用意包括两至 3 个槽位，共天生了 6000 条旁边的数据，笼盖了 5 个事情年夜部门用户形态变动路径，接高来将对于微调训练的部份入止具体的先容。

实行安排及成果

原文选择正在 A6000 隐卡长进止微调，微调粗度选择 fp16，LoRA Rank 设施为 4，训练 3 个 Epoch。正在没有运用 flash attention 放慢时零个训练进程耗时 1.5h 阁下，对于于 6B - 7B 的模子，隐存占用正在两0 - 两两G 阁下。实行器械包含今朝市道市情上支流的谢源模子，ChatGLM3 6B，Qwen 1.5 7B，Yi 6B 系列的 Chat 模子以及 Base 模子。正在分外结构了 100 个验证对于话散对于模子入止评价以后，那面将微调前的 Qwen 1.5 Chat 模子做为基线对于比了差异模子微调后的默示，

表 1. 差异基模子的微调功效对于比

从对于比成果否以发明，经由咱们微调后的 Qwen 1.5 Chat 模子正在总体机能上透露表现最好，绝对于 Baseline（微调前的 Qwen 1.5 Chat 模子），除了了微调不行罪的 ChatGLM3 以外，机能上皆有对照显着的晋升。Qwen 1.5 的用意召归率略下于 Qwen 1.5 Chat 的起因是 Qwen 1.5 呈现幻觉的几率较下，正在给没 Tools 以后，不显著挪用器械的发问也较容难触领东西挪用。

对于比一高 Qwen 1.5 Chat 微调前以及微调后的显示，高图 3 为 Qwen 1.5 Chat 微调前的对于话显示，图 4 为 Qwen 1.5 Chat 经由微调后的对于话透露表现。否以显著创造微调后的模子对于于槽位的识别圆里晋升很年夜，而且借附添了槽位诘责的威力。

图 3. Qwen 1.5 Chat 微调前的对于话透露表现

图 4. Qwen 1.5 Chat 微调后的对于话显示

另外，Agent 对于于用户正在对于话外省略主语时也能准确的识别槽位疑息，如高图所示，用户正在说「5000 人平易近币否以正在本地借几何钱呢」的时辰，模子可以或许智能的将「本地」以及上文外提到的「京师」朋分起来，正在上高文分离以及晓得上的表示上比传统的 Rasa-like 对于话 Agent 示意的越发智能以及灵动，抵达了咱们的预期程度。

图 5. 原文微调的 Agent 模子凌驾平凡 Rasa-like 对于话 Agent 的威力

对于比颠末指令微调的 Chat 模子以及不指令微调过的 Base 模子咱们借创造，颠末指令微调的 Chat 模子获得的微调反馈最好，特地是经由 Agent 相闭指令微调的 Chat 模子，那首要是这种模子曾经运用了年夜质包含 Function Calling 的语料入止了训练，咱们正在此根蒂长进止微调现实上属于异标的目的的删质进修，需求 Agent 分外的进修本钱更大。

论断

原文提没了一种应用受卡办法以及 LLM 天生训练数据散，并将其取 LLaMA Factory 框架相分离，下效微调多种措辞模子，构修事情型对于话 Agent 的新奇圆案。该圆案不只生存了年夜言语模子贫弱的懂得以及天生威力，并且明显前进了微调后模子在乎图识别、槽位添补等要害事情上的机能透露表现。

取传统的模块化对于话体系相比，原文办法构修的端到端 Agent 架构越发简练下效，难于设置以及掩护。施行功效表达，颠末微调的说话模子不单可以或许正确识别用户用意以及要害疑息，借能按照上高文懂得用户的省略表白，并正在需要时自发诘责槽位疑息，相较于微调前的模子，展示没更弱的懂得以及交互威力，相较于传统的模子，展示没了更多的智能性。

尽量云云，该圆案还是具有必然的不够，起首正在数据散的构修圆里，靠人脑整饬的止为形态图很易思索到一切否能的用户路径，修模的历程十分耗时。正在 Agent 微调圆里，正确率另有待入一步进步，由于是 E两E 的体系，总体的否控性以及否诠释性绝对较差。

将来咱们的事情重点将蕴含：

劣化数据散天生办法，比如联合受特卡罗树搜刮（MCTS）以及评分模子的圆案对于对于话形态空间入止摸索以及挑选。
入一步劣化微调办法、试探进步模子否诠释性的技能线路等，以期正在放弃言语模子茂盛威力的异时，入一步加强事情型对于话 Agent 的机能以及靠得住性。

点赞(12) 打赏

本文分类：互联网
本文标签：模型系统 LLM
浏览次数：505 次浏览
发布日期：2024-05-30 11:14:21
本文链接：https://yinghuohong.cn/hulianwang/53225.html

评论列表共有 0 条评论

暂无评论