17.5 小结及拓展阅读 607

17.5 小结及拓展阅读

使用更多的上下文进行机器翻译建模是极具潜力的研究方向，在包括多模态翻

译在内的多个领域中也非常活跃。有许多问题值得进一步思考与讨论：

• 本章仅对音频处理和语音识别进行了简单的介绍，具体内容可以参考一些经典

书籍，比如关于信号处理的基础知识

[1147, 1148]

，以及语音识别的传统方法

[1149, 1150]

和基于深度学习的最新方法

[1151]

。

• 此外，语音翻译的一个重要应用是机器同声传译。机器同声传译的一个难点在

于不同语言的文字顺序不同。目前，同声传译的一种思路是基于目前已经说出

的语音进行翻译

[1152]

，比如，等待源语 k 个词语，然后再进行翻译，同时改进

束搜索方式来预测未来的词序列，从而提升准确度

[1153]

。或者，对当前语音进

行翻译，但需要判断翻译的词是否能够作为最终结果，已决定是否根据之后的

语音重新进行翻译

[1154, 1155]

。第二种思路是动态预测当前时刻是应该继续等待还

是开始翻译，这种方式更符合人类进行同传的行为。但是这种策略的难点在于

标注每一时刻的决策状态十分耗时且标准难以统一，目前主流的方式是利用强

化学习方法

[1156, 1157]

，对句子进行不同决策方案采样，最终学到最优的决策方案。

此外，还有一些工作设计不同的学习策略

[1158, 1159, 1160]

或改进注意力机制

[1161]

以提

升机器同声传译的性能。

• 在多模态机器翻译任务和篇章级机器翻译任务中，数据规模往往受限，导致模

型训练困难，很难取得较好的性能。比如在篇章级机器翻译中，一些研究工作对

这类模型的上下文建模能力进行了探索

[491, 1162]

，发现模型在小数据集上对上下

文信息的利用并不能带来明显的性能提升。针对数据稀缺导致的训练问题，一

些研究人员通过调整训练策略使得模型更容易捕获上下文信息

[1163, 1164, 1165]

。除

了训练策略的调整，也可以使用数据增强的方式（例如，构造伪数据）来提

升整体数据量

[1144, 1166, 1167]

，或者使用预训练的手段来利用额外地单语或图像数

据

[1168, 1169, 1170]

。