17.5 小结及拓展阅读 607
17.5 小结及拓展阅读
使用更多的上下文进行机器翻译建模是极具潜力的研究方向,在包括多模态翻
译在内的多个领域中也非常活跃。有许多问题值得进一步思考与讨论:
• 本章仅对音频处理和语音识别进行了简单的介绍,具体内容可以参考一些经典
书籍,比如关于信号处理的基础知识
[1147, 1148]
,以及语音识别的传统方法
[1149, 1150]
和基于深度学习的最新方法
[1151]
。
• 此外,语音翻译的一个重要应用是机器同声传译。机器同声传译的一个难点在
于不同语言的文字顺序不同。目前,同声传译的一种思路是基于目前已经说出
的语音进行翻译
[1152]
,比如,等待源语 k 个词语,然后再进行翻译,同时改进
束搜索方式来预测未来的词序列,从而提升准确度
[1153]
。或者,对当前语音进
行翻译,但需要判断翻译的词是否能够作为最终结果,已决定是否根据之后的
语音重新进行翻译
[1154, 1155]
。第二种思路是动态预测当前时刻是应该继续等待还
是开始翻译,这种方式更符合人类进行同传的行为。但是这种策略的难点在于
标注每一时刻的决策状态十分耗时且标准难以统一,目前主流的方式是利用强
化学习方法
[1156, 1157]
,对句子进行不同决策方案采样,最终学到最优的决策方案。
此外,还有一些工作设计不同的学习策略
[1158, 1159, 1160]
或改进注意力机制
[1161]
以提
升机器同声传译的性能。
• 在多模态机器翻译任务和篇章级机器翻译任务中,数据规模往往受限,导致模
型训练困难,很难取得较好的性能。比如在篇章级机器翻译中,一些研究工作对
这类模型的上下文建模能力进行了探索
[491, 1162]
,发现模型在小数据集上对上下
文信息的利用并不能带来明显的性能提升。针对数据稀缺导致的训练问题,一
些研究人员通过调整训练策略使得模型更容易捕获上下文信息
[1163, 1164, 1165]
。除
了训练策略的调整,也可以使用数据增强的方式(例如,构造伪数据)来提
升整体数据量
[1144, 1166, 1167]
,或者使用预训练的手段来利用额外地单语或图像数
据
[1168, 1169, 1170]
。