谷歌Google研究团队开源了一款文本编辑模型LaserTagger，可推理出一系列编辑操作！

2014年，Google提出了Sequence-to-Sequence模型，旨在将语句文本映射到fixed-length向量，其间输入和输出的长度可能会有所不同。Seq2Seq一般运用于NLP范畴的文本生成使命，例如摘要生成、语法纠错、语句兼并等。虽然最新的研讨突得端到端的办法在文本生成上比之前更有优势，但其自身存在的不行解释性，一方面使得该模型需求很多的练习数据才干到达可接受的功用水平，另一方面一般只能逐字生成文字，本质上是很慢的。

近来，Google研讨团队开源了一款文本修正模型LaserTagger，可推理出一系列修正操作，以将源文本转换为方针文本。研讨人员断语，LaserTagger处理文本生成一般不易犯错，且更易于练习和履行。

在此之前，Google现已发布了Meena，一个具有26亿个参数的神经网络，可处理多轮对话。1月初，Google在论文中还提出了Reformer模型，可处理一切小说。

GitHub链接：https://github.com/google-research/lasertagger

LaserTagger规划和功用

关于许多文本生成使命，输入和输出之间存在高度堆叠，LaserTagger正是利用了一点。例如，在检测和纠正语法错误或多个兼并语句时，大多数输入文本能够坚持不变，只需修正一小部分单词。然后，LaserTagger会生成一系列修正操作，而非实践单词。

现在支撑的四种修正操作：

Keep（将单词复制到输出中）
Delete（删去单词）
Keep-AddX（添加短语X到符号的单词前）
Delete-AddX（删去符号的单词）

下图对LaserTagger在语句兼并中的运用进行了阐明。

图注：LaserTagger猜测的修正操作中，删去“Turing”，添加“ and he ”。请注意，输入和输出文本存在的高度堆叠。

一切添加的短语均来自受限制的词汇表。该词汇表是一个优化进程的成果，该优化进程具有两个方针：（1）最小化词汇表的巨细和（2）最大化练习样本的数量，其间添加到方针文本的仅有必要单词仅来自词汇表。短语词汇量受限制会使输出决议计划的空间变小，并避免模型添加恣意词，然后减轻了“错觉”（注：hallucination，模型在所生成的文本中，输入信息中并不存在）的问题。

输入和输出文本的高堆叠性的一个推论是，所需的修正往往是部分的而且互相独立。这在某种程度上预示着修正操作能够高精度地并行推理，与次序履行推理的自回归seq2seq模型比较，可显着提高端到端的速度。

成果

研讨人员评价了LaserTagger在四个使命中的体现，分别是：语句兼并，拆分和改述，笼统总结和语法纠正。成果显现，运用很多练习样本情况下，LaserTagger与根据BERT的seq2seq基线成果适当，而且在练习样本数量有限时显着优于基线。下面显现了WikiSplit数据集上的成果，其间的使命是将一个长语句改写为两个连接的短语句。

图注：在100万个样本的完好数据集上练习模型时，LaserTagger和根据BERT的seq2seq基线成果适当，但在10,000个或更少样本的子样本上进行练习时，LaserTagger显着优于基线模型（SARI得分越高越好）。

LaserTagger首要长处

与传统的seq2seq办法比较，LaserTagger具有以下长处：

操控：经过操控输出短语词汇（也能够手动修正或收拾），LaserTagger比seq2seq基线更不易发生“错觉”问题。
推理速度：LaserTagger核算推理的速度比seq2seq基线快100倍，能够很好的满意实在的情况下的实时问题。
数据功率：即便仅运用几百或几千个练习样本进行练习，LaserTagger也会发生合理的输出。试验中，seq2seq基线需求不计其数个样本才干取得相同的功用。

Google团队最终写道：“ LaserTagger的优势在大规模运用时变得更显着，例如，经过缩短呼应时刻并削减重复性，改善了某些服务中语音应对的格局。高推理速度使该模型能够刺进现有技能仓库中，而不会在用户端添加任何显着的推迟，而改善的数据功率能够搜集多种言语的练习数据，然后使来自不同言语布景的用户获益。 ”

本站部分文章来自互联网，文章版权归原作者所有。如有疑问请联系QQ：3164780！