17.5 小结及拓展阅读 607
17.5 小结及拓展阅读
使用更多的上下文进行机器翻译建模是极具潜力的研究方向,在包括多模态
译在内的多个领域中也非常活跃。有许多问题值得进一步思考与讨论:
本章仅对音频处理和语音识别进行了简单的介绍,具体内容可以参考一些经典
书籍,比如关于信号处理的基础知识
[1147, 1148]
,以及语音识别的传统方法
[1149, 1150]
和基于深度学习的最新方法
[1151]
此外,语音翻译的一个重要应用是机器同声传译。机器同声传译的一个难点在
于不同语言的文字顺序不同。目前,同声传译的一种思路是基于目前已经说出
的语音进行翻译
[1152]
,比如,等待源语 k 词语,然后再进行翻译,同时改
束搜索方式来预测未来的词序列,而提升准确度
[1153]
。或者,对当前语音
行翻译,但需要判断翻译的词是否能够作为最终结果,已决定是否根据之后的
语音重新进行翻译
[1154, 1155]
。第二种思路是动态预测当前时刻是应该继续等待还
是开始翻译,这种方式更符合人类进行同传的行为。但是这种策略的难点在于
标注每一时刻的决策状态十分耗时且标准难以统一,目前主流的方式是利用强
化学习方法
[1156, 1157]
对句子进行不同决策方案采样,最终学到最优的决策方案。
此外,还有一些工作设计不同的学习策略
[1158, 1159, 1160]
或改进注意力机制
[1161]
以提
升机器同声传译的性能。
在多模态机器翻译任务和篇章级机器翻译任务中,数据规模往往受限,导致模
型训练困难,很难取得较好的性能。比如在篇章级机器翻译中,一些研究工作对
这类模型的上下文建模能力进行了探
[491, 1162]
,发现模型在小数据集上对上下
文信息的利用并不能带来明显的性能提升。针对数据稀缺导致的训练问题,
使
[1163, 1164, 1165]
整,使(例如,据)
[1144, 1166, 1167]
使
[1168, 1169, 1170]