17.2 语音翻译 583
17.2 语音翻译
语音,是人类交流中最常用的一种信息载体。从日常聊天、出国旅游,到国际会
议、跨国合作,对于语音翻译的需求不断增加。甚至在有些场景下,用语音进行交
互要比用文本进行交互频繁得多。因此,语音翻译(Speech Translation)也成为了语
音处理和机器翻译相结合的重要产物。根据目标语言的载体类型,可以将语音翻译
分为语音到文本翻译(Speech-to-Text Translation)和语音到语音翻译(Speech-to-Speech
Translation);基于翻译的实时性,还可以分为实时语音翻译(即同声传译,Simultaneous
Translation)和离线语音翻译(Offline Speech Translation)。本节主要关注离线语音到
文本翻译方法(简称为语音翻译),分别从音频处理、级联语音翻译和端到端语音翻
译几个角度开展讨论。
17.2.1 音频处理
为了保证对相关内容描述的完整性,这里对语音处理的基本知识作简要介绍。不
同于文本,音频本质上是经过若干信号处理之后的波形(Waveform)。具体来说,声
音是一种空气的震动,因此可以被转换为模拟信号。模拟信号是一段连续的信号,经
过采样变为离散的数字信号。采样是每隔固定的时间记录一下声音的振幅,采样率
表示每秒的采样点数,单位是赫兹(Hz)。采样率越高,采样的结果与原始的语音越
相像。通常来说,采样的标准是能够通过离散化的数字信号重现原始语音。日常生
活中使用的手机和电脑设备的采样率一般为 16kHz,表示每秒 16000 个采样点;而
音频 CD 的采样率可以达到 44.1kHz。经过进一步的量化,将采样点的值转换为整型
数值保存,从而减少占用的存储空间,通常采用的是 16 位量化。将采样率和量化位
数相乘,就可以得到比特率(Bits Per Second,BPS),表示音频每秒占用的位数。例
如,16kHz 采样率和 16 位量化的音频,比特率为 256kb/s。音频处理的整体流程如
图17.2所示
[1042, 1043]
。
声波
采样
量化
模拟
语音信号
离散
时间信号
数字离散
时间信号
语音信号
图 17.2 音频处理过程
经过上面的描述可以看出,音频的表示实际上是一个非常长的采样点序列,这
导致了直接使用现有的深度学习技术处理音频序列较为困难。并且,原始的音频信
号中可能包含着较多的噪声、环境声或冗余信息,也会对模型产生干扰。因此,一般
会对音频序列进行处理来提取声学特征,具体为将长序列的采样点序列转换为短序
列的特征向量序列,再用于下游系统。虽然已有一些工作不依赖特征提取,直接在