首页 » 互联通信 » 专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危?

专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危?

九鼎建筑装饰工程通讯 2024-12-28 0

扫一扫用手机浏览

文章目录 [+]

上周末,微软在 arXiv 上悄然揭橥了一篇题为“SpreadsheetLLM: Encoding Spreadsheet for Large Language Models”的研究论文,首次揭示了 SpreadsheetLLM 的干系细节:这个新模型“在各种电子表格任务中都非常有效”,乃至“有可能改变电子表格数据管理和剖析的办法”。

在论文中,研究职员首先强调了电子表格在商业天下中的普遍性和主要性,指出电子表格被广泛用于各种任务,从大略的数据录入和剖析,到繁芜的财务建模和决策。
然而,由于“广泛的二维网格、各种布局和多种格式选项”,导致现有的大型措辞模型(LLM)很难明得电子表格的内容并对其进行推理。

专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危? 专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危? 互联通信

为此,微软推出了 SpreadsheetLLM,想要“首创一种高效的编码方法,以此开释和优化 LLM 在电子表格上强大的理解和推理能力”。

专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危? 专为 Excel 而生!微软推出新 AI 模型网友:司帐师和数据分析师危? 互联通信
(图片来自网络侵删)

最初,微软研究团队采取了一种原始的序列化方法,整合了单元格的地址、值以及格式信息。
但是这种方法受限于 LLMs 的 token 限定,对大多数运用来说并不实用。
为理解决这一难题,微软开拓了一种创新的编码框架 SheetCompressor,它能够有效压缩电子表格,使其更加适配 LLM 的处理需求。

(SheetCompressor 框架示意图)

从框架图中可以看出,SheetCompressor 框架由三个核心模块组成:

基于构造锚点的压缩:在全体电子表格中放置“构造锚点”,帮助 LLM 理解数据构造。

反向索引转换:把电子表格转换为更紧凑的格式,并肃清冗余数据。

数据格式感知聚合:根据数字格式和数据类型,对相邻单元格进行分组。

微软表示,在电子表格检测任务中,SheetCompressor 大幅提升了处理速率和准确率:相较于原始的序列化方法,在 GPT-4 的高下文学习环境下,性能提升了 25.6%。
此外,经由 SheetCompressor 微调的 LLM,纵然均匀压缩比例高达 25 倍,但 F1 得分(一种衡量二分类模型精确度的指标)仍能达到业界领先的 78.9%,超越同类模型 12.3%。
更值得一提的是,在对各种 LLM 进行“全面评估”后,微软创造 SheetCompressor 可将电子表格编码的 token 利用量大幅减少 96%。

不过,微软也承认目前 SpreadsheetLLM 模型仍有一些限定,如无法很好理解繁芜或构造化程度较高的数据,以及不能压缩包含自然措辞的单元格等。

但总体来说,展望未来 SpreadsheetLLM 能让更多用户更随意马虎访问和理解电子表格数据,还能帮助自动化许多与电子表格数据剖析干系的繁琐耗时的任务,如数据清理、格式化和汇总。
借助 AI 加持下的 SpreadsheetLLM,未来企业有望节省许多韶光和资源,让员工专注于须要人类判断力和创造力的高代价活动。

参考链接:

https://arxiv.org/abs/2407.09025?ref=thestack.technology

https://www.thestack.technology/microsoft-llm-spreadsheet-llm/

炎酷暑季🔥,AI 科技大本营送清凉福利!

标签:

相关文章

维修资金通例申请运用立案流程及提交材料

一、申请流程(1)提出维修资金利用申请。业委会或业委会(业主)委托物业做事企业对需维修项目打维修申请报告,确定申请主体并加盖公章。...

互联通信 2024-12-29 阅读0 评论0