据OpenAI发布的,GPT-4o mini在MMLU(大规模多任务措辞理解,衡量模型广泛的天下知识和解决问题的能力)上的得分为82%,比其余两款低本钱竞品更高——Google的Gemini Flash得分为77.9%,Anthropic的Claude Haiku得分为73.8%。目前,GPT-4o mini在LMSYS排行榜上的谈天偏好方面优于GPT-4.
GPT-4o mini已经在几个关键基准上进行了评估,涉及文本和视觉的推理任务、数学推理和编码任务、多模态推理,结果均优于其他小型模型。
各种评估基准下的模型评估分数OpenAI官方网站

GPT-4o mini还在API中支持文本和视觉功能,未来还将支持文本、图像、***和音频的输入和输出,并且拥有截至2023年10月的知识。得益于与GPT-4o共享的改进的tokenizer(编译器),GPT-4o mini处理非英语文本方面也更具本钱效益。
GPT-4o mini本钱更低、延迟更低,能够完成更多的任务,例如调用多个API(运用程序编程接口)、通报和记录大量完全的代码库或对话记录、更快速、实时地与利用者谈天等。
作为模型开拓过程的一部分,OpenAI 已经与一些值得相信的互助伙伴互助,以更好地理解GPT-4o mini的利用场景和局限性。目前已与Ramp和超人等公司进行了互助,反馈创造在实行从收据文件中提取构造化数据或在供应线程历史记录时天生高质量电子邮件相应等任务时,GPT-4o mini的表现明显优于GPT-3.5 Turbo。
考虑到价格成分,轻量化且廉价的“小而精”AI模型可能更受企业欢迎,小模型的干系开拓竞争激烈。谈及为何没有更早地推出“小而精”的模型时,OpenAI的API产品卖力人Olivier Godement说,“我们的义务是利用最前沿技能,构建最强大、最有用的运用程序,我们当然希望连续做前沿模型,推动技能进步……但我们也希望拥有最好的小模型,我认为它会非常受欢迎。”
OpenAI称,开拓过程中的每一步都考虑了安全性。开拓时会过滤掉仇恨辞吐、色情信息、个人隐私信息等不宜模型学习和输出的内容,并采取自动和人工(超过70位来自社会心理学和缺点信息等领域的外部专家)对模型进行了评估,以识别潜在风险。GPT-4o mini是第一个运用指令层次构造的模型,有助于提高模型抵抗越狱、即时注入和系统即时提取的能力,这使得模型的相应更加可靠,并有助于使其在大规模运用中更安全地利用。
自2022年推出功能较弱的模型text-davinci-003以来,GPT-4o mini的每token本钱已低落99%。GPT-4o mini定价比之前的Frontier型号便宜一个数量级,比GPT-3.5Turbo便宜60%以上。在ChatGPT中,免费版、Plus版和团队版用户已经能够利用GPT-4o mini替代GPT-3.5,企业用户也将从下周开始利用。
本文系不雅观察者网独家稿件,未经授权,不得转载。