如果你在机场候机,常常会听到类似这样的声音:“您好,乘坐CA1831次航班由北京前往上海的旅客请注意,您乘坐的飞机很快就要起飞了。请您带好行李物品,从15号登机口登机。”过了一会儿,这个声音又会更换航班名、出发和到达地及登机口,再播一次。这是哪一个播音员在讲话呢?把同一句话说这么多遍,她不嫌麻烦么?
其实,这些声音多是电脑合成出来的。操作人员只要输入一段文字,电脑就可以自动把它变成人的说话声。要报不同的站名,只要把站名文字换一下就可以了。要换一个男声或者儿童的声音,也只要在语音库中选择不同的语音就可以了。这样的工作,计算机做多久都不嫌累。
这种把文字变成语言的工作,称为语音合成。最初的语音合成技术非常简单,就是把预先录制的单词一字一顿地读出来。不过这样的方式听起来非常机械,就像刚学说话的孩子一样。更重要的是,计算机能说的单词数目被限制在预先记录的内容范围内,灵活度太低。
人们后来发现,既然人类的语言能够用声母和韵母组成的拼音表示,何不让计算机也“学学”拼音?计算机学会如何使用和组合各个“声母”和“韵母”的发音后,只需再制作一套软件将文字变成系统能辨认的“拼音”,计算机就什么话都能说了,不管是方言、普通话还是外语。当计算机软件能够按照每个字和单词之间的微妙联系处理语言的音调变化后,计算机说起话来就不仅是“字正腔圆”,还变得“富有感情”了。
要实现这些功能,需要性能较强的计算机。早期只有拥有较大计算机系统的公司才能使用,用以制作各种预先录制的提示语。幸运的是,随着今天计算机软硬件技术的发展,原先需要大型计算机系统才能完成的工作,现在连普通个人计算机也能处理了,因此更多有需要的人能够享受到语音合成的好处。
比如开源的非视觉桌面访问系统(NVDA),就可以把屏幕上显示的文字变成声音,帮助视力障碍的人“看”计算机,一些手持设备中的读书软件可以把长篇小说直接读出来。微电子技术的发展更进一步将整套语音合成的软硬件缩小到一块芯片之中,使电子词典和MP3播放器等电子设备也能“开口说话”了。