4.4 无参考答案的自动评价 137
随着深度学习技术的发展,另一种思路是使用表示学习技术生成句子的分布式
表示,并在此基础上利用神经网络自动提取高度抽象的句子特征
[196, 197, 198]
,这样就避
免了人工设计特征所带来的时间以及人工代价,同时表示学习所得到的分布式表示
可以涵盖更多人工设计难以捕获到的特征,更加全面地反映句子的特点,因此在质
量评估任务上也取得了很好的效果
[199, 200, 201, 202, 203]
。比如,最近的一些工作中大量使用
了神经机器翻译模型来获得双语句子的表示结果,并用于质量评估
[204, 205, 206, 207]
。这样
做的好处在于,质量评估可以直接复用机器翻译的模型,从某种意义上降低了质量
评估系统开发的代价。此外,随着近几年各种预训练模型的出现,使用预训练模型
来获取用于质量评估的句子表示也成为一大流行趋势,这种方法大大减少了质量评
估模型自身的训练时间,在该领域内的表现也十分亮眼
[208, 209, 210]
。关于表示学习、神
经机器翻译、预训练模型的内容在第九章和第十章会有进一步介绍。
在得到句子表示之后,可以使用质量评估模块对译文质量进行预测。质量评估
模型通常由回归算法或分类算法实现:
• 句子级和文档级质量评估目前大多通过回归算法实现。由于在句子级和文档级
的质量评估中,标签是使用连续数字(得分情况)表示的,因此回归算法是最合
适的选择。最初的工作中,研究人员们多采用传统的机器学习回归算法
[191, 194, 211]
,
而近年来,研究人员则更青睐于使用神经网络方法进行句子级和文档级质量评
估;
• 单词级和短语级质量评估多由分类算法实现。在单词级质量评估任务中,需要
对每个位置的单词标记“OK”或“BAD”,这对应了经典的二分类问题,因此
可以使用分类算法对其进行预测。自动分类算法在第三章已经涉及,质量评估
中直接使用成熟的分类器即可。此外,使用神经网络方法进行分类也是不错的
选择。
值得一提的是,近年来的研究工作中,模型集成已经成为了提高质量评估模型
性能的重要手段之一,该方法能够有效减缓使用单一模型时可能存在的性能不稳
定,提升译文质量评估模型在不同测试集下的鲁棒性,最终获得更高的预测准确
度
[197, 206, 207, 208, 212]
。
4.4.3 质量评估的应用场景
很多情况下参考答案是很难获取的,例如,在很多人工翻译生产环节中,译员的
任务就是“创造”翻译。如果已经有了答案,译员根本不需要工作,也谈不上应用机
器翻译技术了。这时更多的是希望通过质量评估帮助译员有效地选择机器翻译结果。
质量评估的应用场景还有很多,例如:
• 判断人工后编辑工作量。人工后编辑工作中有两个不可避免的问题:1)待编辑
的机器译文是否值得改?2)待编辑的机器译文需要修改哪里?对于一些质量