三个臭皮匠顶个诸葛亮？已证实混淆多个小模型机能比肩GPT3.5

文章目录 [+]

编辑：rome

对模型参数量的迷信、执念也容许以放下了，稠浊多个小模型也是未来布局对话型 AI 的一个光明的方向。

三个臭皮匠顶个诸葛亮？已证实混淆多个小模型机能比肩GPT3.5 三个臭皮匠顶个诸葛亮？已证实混淆多个小模型机能比肩GPT3.5 人工智能

在对话型人工智能（AI）研究中，存在趋势即朝着开拓参数更多的模型方向发展，如 ChatGPT 等为代表的模型。
只管这些弘大的模型能够天生越来越好的对话相应，但它们同时也须要大量的打算资源和内存。
本文研究磋商的问题是：一组小模型是否能够协同达到与单一大模型相称或更好的性能？

（图片来自网络侵删）

本文先容了一种创新而大略的方法：稠浊。

作者展示了如果从一组小规模的对话型人工智能中随机选择回答，天生的对话型人工智能具有很强的性能和吸引力，可以赛过参数数量级大很多的系统。
作者不雅观察到稠浊模型彷佛具有 “最优” 的特色，通过在对话历史上进行条件化相应，一个具有特定属性的单一模型能够学习其他系统的能力。
可以为用户供应更引人入胜和多样化的回答和利用体验。

作者通过在 CHAI 平台上进行大规模 A/B 测试，证明了稠浊模型的有效性。
在真实用户的测试中，包含三个 6-13B 参数 LLM 的稠浊模型，赛过了 OpenAI 的 175B + 参数 ChatGPT。
并且稠浊模型的用户留存率显著高于基于 ChatGPT 的对话型人工智能，解释用户认为稠浊对话型人工智能更具吸引力、娱乐性和实用性，只管稠浊模型仅须要花费少量的推理本钱和内存开销。

论文：Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM论文链接：https://arxiv.org/pdf/2401.02994.pdf模型链接：https://huggingface.co/ChaiML

稠浊模型

对话型 AI

对话型人工智能的目标是设计一个能够天生引人入胜、富有娱乐性的对话系统，供人们进行交互。
设 uk 表示用户的第 k 轮对话，个中每个用户轮次是一个单词序列，uk = (w (k) 1 . . . , w (k) |uk| )。
同样地，设 rk 表示系统天生的第 k 个相应，也是一个单词序列，rk = (w (k) 1 , . . . , w (k) |rk| )。
作为一种隐式措辞模型，一个特定的对话型人工智能，参数化为 θ，在给定先前对话历史的情形下，建模预测下一个相应涌现的概率。

在演习过程中，系统隐式学习将更高的概率分配给流畅、引人入胜和高质量的相应。
因此，可以通过从其分布中随机采样输出，无论是通过随机方法，还是通过像波束搜索这样的近似搜索过程。

受 InstructGPT 的启示，最前辈的对话型人工智能常日遵照三阶段的流程。
首先，对预演习措辞模型 (PrLM) 进行微调，该模型在干系的文本领域进行演习，例如，在设计引人入胜的谈天机器人时利用有趣的文学作品。
其次，利用明确的人类反馈来演习褒奖模型。
末了，利用褒奖模型改进原始的 PrLM，可以采取近端策略优化或者采取大略的谢绝抽样策略。

在开拓特定的对话型人工智能时，存在许多设计选择，如根本 PrLM、用于微调的对话数据以及用于更新系统的人类反馈。
人们可能期望不同的方法和演习数据能产生高度多样的系统，每个别系都展示出独特的上风和特色。
然后，可以考虑如何将一组对话型人工智能组合起来，形成具有总体更好特性的系统。

集成

根据贝叶斯统计事理，分配给特定相应的概率可以被观点化为对所有合理的对话型人工智能参数取边际期望，

在实践中，当只能访问有限的一组对话型人工智能系统 {θ1, θ2...θN} 时，可以将连续积分近似为离散求和。
此外可以假设 PΘ(θ) 在这些系统上均匀分布，即 PΘ(θn) = 1/N，如果该凑集包含性能相似的模型，这是一个有效的假设，可以得到下面的近似式：

稠浊

作者提出的方法目标是从真实的集成分布 (方程 8) 中近似抽样。
为了实现这种近似，在每一轮对话稠浊模型都会随机 (均匀地) 选择天生当前相应的对话型人工智能 θ。
这个过程不才面的算法 1 中有详细描述。
须要把稳的是，在对话过程中，特定对话型人工智能天生的相应是在先前选择的对话型人工智能天生的所有先前相应的条件下进行的。
这意味着不同的对话型人工智能能够隐式地影响当前相应的输出。
因此当前相应是个体对话型人工智能上风的稠浊，它们共同互助以创建整体更吸引人的对话。

实验

对付在 Chai Research 平台上支配的每个对话型人工智能，作者根据 A/B 测试设置中的 (文章 4.2 节的公式 15) 打算每一天 k 的用户参与度。
通过考虑第 20 天 (k=20)，图 1 显示了稠浊模型、其组成的对话型人工智能以及 OpenAI 的 GPT-3.5 的参与度比例。
作者不雅观察到中等大小的对话型人工智能 (Pygmillion、Vicuna 和 ChaiLLM) 的参与度明显低于 GPT3.5，这是在预期内的，由于 GPT3.5 的参数数量要高一个数量级。
然而，稠浊这三个基本对话型人工智能，稠浊模型的结果不仅比每个组成系统都具有更高的参与度，而且性能提升显著，以至于稠浊模型可以赛过 OpenAI 的 GPT3.5。
与其他对话型人工智能比较，稠浊模型的成功也可以通过比较 k=20 的用户留存比 (文章 4.1 节的公式 10) 来打算，结果如图 1 所示。

稠浊模型统共有 25 亿参数，而 OpenAI 有 1750 亿参数。
此外，由于稠浊模型的相应是从单个对话型人工智能中随机抽样的，因此推理本钱等同于单个 6B/13B 系统的本钱。
在图 2 和图 3 中，可以看出推理速率的显著差异，可以不雅观察到稠浊模型在参与度和用户留存方面有显著的性能提升，而速率与小型对话型人工智能相称。
这具有主要意义：与其扩大系统规模以提高质量，不如大略地稠浊多个较小的开源系统，而且在不增加任何推理本钱的情形下，可以极大地改进用户的对话体验。
这证明了在设计引人入胜且成功的对话型人工智能时，模型协作比大略的模型参数扩展更为主要。

作为客不雅观比较，表 1 报告了单一指标择要 (论文 3.3 节)。
以 Pygmillion 为掌握组，作者供应了测试相对付掌握组的参与度比率指标∆α 和∆γ，以及测试相对付掌握组的留存比率指标∆ζ 和∆β。
稠浊模型具有最高的相对初始参与度，∆α，以及最佳的参与度比率衰减率，∆γ。
只管 Vicuna 的留存比率衰减率∆β 优于稠浊模型，但 Vicuna 的初始留存比率∆ζ 明显较低，解释 Vicuna 须要更长的韶光来达到稠浊模型的留存分数 6，如前面图 2 和 3 所示。
总体而言，很明显，稠浊模型通过协作多个较小的对话型人工智能，在供应比单个更大的对话型人工智能 (OpenAI 的 GPT3.5) 更高质量的对话方面是有效的。