Transformer自动纠语法、改论文,我们试了这个免费英文写作新神器

文章目录 [+]

作者：思、Racoon

网易有道词典新增 AI 作文批改，词汇、语法、构造面面俱到，我以为我的英文论文有救了。
在当前疫情下，我们已经离不开居家学习了，各种备考也得提到日程上。
机器之心的读者大多数都是理科生，数学、打算机都还是有一些「天赋」。
然而对付英语，貌似这些天赋帮不到我们什么，缺少「语感」的我们在写作文时常常会犯一些拼写、语法缺点。
英语阅读或听力等其它部分还好，有比较标准的对错判断标准。
但是对付作文，很可能写了缺点句子，我们还真以为它完备没问题。
大概小伙伴们正在备考四六级或托福雅思，大概正在写机器学习论文，这篇文章将先容有道词典中的 AI 作文批改，将我们写的英文传到 APP 上，它将自动批改打分，并且纠正我们的语法、拼写等缺点。
AI 作文批改功能已经放到了最新版本的有道词典 APP 中，我们先试用了一下雅思作文与 arXiv 上的论文。
如下左边是雅思作文，它会给作文整体打一个分数，并通过点评见告你哪些地方须要加强，例如词汇的丰富度、逻辑的连贯性等等。
对付我们比较关心的语法，AI 作文批改也会给出修正见地，例如「environment」就推举改成「environmental」。
（图片来自网络侵删）
此外，很多研究者都须要做实验写论文，然而机器学习领域的论文基本都是英文，按我们的思路写完论文后，中间会存在很多细节问题。
如上机器之心在上传一段 arXiv 论文后，AI 作文批改确实能给出一些很好的修正建议。
例如它让我们将「On the other hand」子句独立出来，确实在构造上有更好的可读性。
这么好的运用已经做出来了，而且还是免费的，有英文作文修正需求的小伙伴还不赶紧打开有道词典，体验白嫖的快乐～那么问题来了，要实现 AI 作文批改，它的思路、事理又是什么样的？看思路，自动批改怎么解？有道词典 AI 作文批改的利用效果已经展示在这边了，从机器学习及从整体过程上来说，AI 作文批改可以分为评分、评语和纠错三大模块。
个中评分会从词汇、语法等角度打分；评语也会从词汇、语法、构造等维度去考虑，但同时还会供应同义词汇、高等词汇推举以及佳文推举等；纠错则须要识别并供应修正见地。
评分与评语天生都可以归为评分框架，在此过程中，年级或作文作者的学习阶段须要充当条件。
全体评分框架可以结合传统方法与深度学习方法，充分发挥它们各自的上风。
例如传统线性模型，我们可以在词、句、篇章维度上给出评分。
作文的词数、词汇丰富度、高等词汇是不是足够？拼写、语法、句式节制是不是没问题？篇章的逻辑性、主题是不是都连贯？
这三个维度并不能概括整体的作文质量，我们还须要一个深度神经网络来从「作文整体」给出一个分数。
如下是有道打分模型的紧张框架，个中 w_i 都是某个句子的「单词」，每一条句子会通过卷积神经网络编码为一个「句子语义向量」。
这些语义向量终极会通过循环神经网络与把稳力机制编码为一个作文的整体分数。
总体上，作文打分与评语天生的办理思路比较随意马虎理解，但是要想模型能自动修正语法缺点，这彷佛就比较难办理了。
难道还用端到真个模型演习？我们真不能确定深度神经网络能自己完成「纠错」这一功能，毕竟，在我们的印象中，语法缺点的种类非常多，「语感」这一说法又比较缥缈。
有道的办理方案也非常故意思，首先对付大略一些的拼写纠错，我们可以根据命名实体识别（基于 BERT）及统计模型给出一个得分，依据词典、编辑间隔等浩瀚特色判断拼写是不是有问题。
后面对于重头戏语法纠错，有道考试测验将其定义成序列到序列的天生问题，利用 Transformer 的强大拟合能力与有道累积的数据量直接学习。
看起来语法纠错模型的思路并不难，但重点在于 Transformer 的数据量需求非常大。
难道我们真的能像机器翻译领域那样找到海量有语法缺点的句子，及改动语法后的对应句子？这里有道采取的是一种迁移与对抗学习的办法，既然我们没有海量标注数据，那么基于真实用户缺点分布天生海量「伪语料」，用它先演习 Transformer 模型。
后面由于语法纠错的真实标注数据很宝贵，我们可以在演习完 Transformer 后再用真实数据微调一番。
采取这种演习模式，我们才有可能令 Transformer 学到若何改错句。
上面便是有道自动改错的紧张思路了，如果将其运用到有道词典这个 APP 上，还有很多须要战胜的寻衅。
有道也做了一系列优化，例如利用知识蒸馏压缩模型、利用预演习 BERT 快速判断标点与句子对错等等。
真正要做成好用的产品，实际寻衅远比我们想象中的多。
看效果，举个栗子后面可以详细看看有道 AI 作文批改的功能与效果，我们也可以同时试试 Grammarly 等类似的工具。
先不说效果，吐槽一下利用，其它工具不是要*** Chrome 插件便是须要注册与登录，有道词典的 AI 作文批改的确要方便很多。
在考试作文方面，AI 作文批改能根据不同的知识水平与考试种别进行专业打分，它会从词、句、篇章的层面上进行点评，语法纠错也会给出更清晰的解析。
下图为 AI 作文批改给一篇高中作文打的分，它同时会天生对应的报告。
除了整体的报告与评分，AI 作文批改会详细剖析详细哪些地方涌现了问题，每一处缺点都能查看缘故原由及修正见地。
尤其是咱们中国人易犯的冠词利用缺点，利用这个批改软件能够较好地帮我们找出这些语法问题，十分方便。
虽然利用类似 Grammarly 这样的运用也能自动纠错，但相对而言，它们并没有打分功能，也无法判断用户的学习阶段和考试类型，更不会天生专业的点评报告。
无法做到网易词典 AI 作文批改这样的细化处理，针对不同用户群体供应针对性的建议。
还能直接 OCR除了常规的复制粘贴或手动输入，有道词典上的 AI 作文批改还支持 OCR，只须要拍张照就能转化为文本。
可以看到，有道词典对手写单词的识别还是比较准的，乃至连标点符号以及段落的位置都能准确识别出来。
纵然识别有些小缺点，手动改一改也就没问题了。
确认提交后就能进行剖析，只不过 OCR 大大简化了手写作文的自动批改过程，省去了我们自行手敲的烦恼。
尤其是身边没有电脑时，这项功能给我们供应了极大的便利。
核心功能：语法纠错AI 作文批改的核心功能，还是在于语法纠错，这是我们最随意马虎提升写作技能的地方。
语法纠错并不是一个新能力，目前有挺多产品都在做这样的事情。
但是用 Transformer、BERT 等模型来做语法纠错，并结合传统方法的上风，这样的思路听上去效果就不会差。
我们可以先通过一条相同的错句试试不同语法纠错产品的效果：「On a cold morning, while I was watching a girl buy bread and milk in the fiont for me.」。
首先有道词典可以检测出三个缺点，分别是拼写、冠词和介词缺点。
我们放到微软爱写作平台后，它只能创造「fiont」存在拼写缺点，并且推举将「buy」换成「purchase」等更高等的词。
Grammarly 免费版一样，它也只能识别出「fiont」存在拼写缺点。
图左为有道词典 AI 作文批改结果，图右为 Grammarly 纠错结果。
从总体体验上来说，有道词典挑出来的缺点更全一些，尤其是当一句话中涌现多种缺点时。
而且由于 AI 作文批改采取了前沿的 DL 模型，它对高下文的感知会更强一些，对付较繁芜语法问题、或者语篇尺度上的时态问题，它都更有上风。
可能你会以为单个例子不能解释什么，有道词典也做了详细的人工测评。
对付脱敏后的批改做事要求，测试职员从外洋词典要求、磨练用户要求、行业数据集随机采样一部分作为测试集，并评估不同纠错做事的效果。
全体测评过程算法同学都没有参与，基本能做到公正测评。
不同产品的纠错效果比拟。
个中，Precision 是语法检测与改动的精确率，Recall 表示语法检测与改动的召回率。
而 F0.5 为精度与召回率的调和均匀，其值越高，常日表示算法性能越好。
从上表我们可以明显的看到，有道词典 AI 作文批改的三项指标均赶过同类前辈自动批改软件 5%～7%。
目前大家已经都可以利用了，有道也表示，AI 作文批改还会有其它一些提升，未来将持续优化润色、范文推举、书面与口语风格转化等功能。
有了这些新能力，作文备考、论文写作等更多的体验都会更顺滑一些。

标签：批改作文