1939年纽约世界博览会上的Voder
1939年纽约世界博览会上的Voder美国国会图书馆/LC-G612-T01-35566

今天,机器发出的声音与我们对话一直都是。它们充当我们手机的私人助理,管理我们的智能家居,偶尔还会从无法识别的电话号码打来电话,告诉我们我们是大笔奖金抽奖的最后竞争者。

电子声音现在可能已经司空见惯了,但语音合成的道路上却充斥着那些承诺给我们带来未来声音的设备的残骸——但它们并没有超越它们的新奇价值。

在对电子语音的探索中,最令人着迷的遗物之一是贝尔实验室的Voder,它是第一个为我们带来完全合成语音的设备。即使听起来像机器人恶魔。

Voder于20世纪30年代首次亮相,是声学梦想家和贝尔实验室发明家荷马·达德利的发明。在20世纪20年代末,达德利发明了更为著名的“通道”声码器,它通过电话线将输入的语音转换为电子信号,然后在另一端用电子声音模仿人的声音来复制它。

Voder更进一步:它在没有人类声音输入的情况下产生语音。操作员把它当作一架未来的风琴来演奏,但它不是在演奏音乐,而是在说话。作为一篇专题文章史密森学会的科学快报从1939年1月开始,Voder被描述为“第一个真正创造人类语言的设备”。

文章中所表达的惊奇被未来的震惊冲淡了一点。“(作者们)在将其拟人化和称之为‘它’之间徘徊。麻省理工学院人类学家莉莉娅·基尔伯恩(Lilia Kilburn)研究人与声音技术之间的相互作用,并研究了Voder和许多其他语音合成机器的文化意义,她说:“因此,人们肯定会担心这里是否存在人类智能。”“有趣的是,现在人们谈论亚马逊的Echo等技术时,也带着同样奇怪的恐惧和敬畏。”

1939年贝尔实验室发布会上的人群。
1939年贝尔实验室发布会上的人群。Fæ/公共领域

Voder是一头难以驾驭的野兽。这台机器可以创造20个左右不同的电子蜂鸣声和啁啾声操作员将使用10个键、一个腕板和一个踏板来操纵它。嗡嗡声和嘶嘶声的频谱可以被精心安排来模仿语音,使用10个键来播放一系列声音,这些声音可以在发声(任何使用声带的声音,比如“uuuuh”)和不发声(不使用声带的声音,比如“sssss”)之间切换,而踏板可以影响“声音”的音调,这可以产生一系列的屈调。

用Voder创造单词需要考虑组合成一个单词的各种声音,以及影响其含义的细微变化。这是一个困难而不自然的过程,只有20-30人学会了如何使用它。

正如基尔伯恩所说,就像声码器和许多其他早期的语音合成技术一样,声码器产生的声音通常是男性的,但这个设备主要是由女性电话接线员操作的。事实上,根据同一份1939年的《科学新闻快报》,Riesz和其他工程师将Voder命名为“佩德罗”,以巴西皇帝Dom Pedro的名字命名,据说他听到电话后惊呼道:“我的上帝!它谈判!”

抛开所有困难不谈,Voder终于在1939年的纽约世界博览会(World’s Fair)上在贝尔实验室(Bell Labs)亮相Elektro,吸烟机器人),它看起来确实像是直接从未来出来的东西。有史以来第一次,一个机器人可以自己说话了。或者这就是主持人所说的。

该设备由海伦·哈珀夫人演示,她是Voder的中心操作员,并培训了所有其他用户。在机器演示的录音中,哈珀说她花了大约一年的时间才学会如何自己操作它。

哈珀坐在一个光滑的控制台后面,她身后的墙上装饰着一个大喊大叫的人的装饰艺术形象。当哈珀运行Voder键时,一个主持人会向人们介绍Voder的声音能力。在演示过程中,哈珀让Voder用不同的语调说同一句话,用法语说出一个短语,模仿老人声音的抖动效果,甚至模仿一头牛。

Voder的话听起来有点难以理解,甚至有点令人不安。根据基尔伯恩的说法,除了声音本身,会说话的机器的概念一定有点不可思议。“这对人们来说太可怕了,”基尔伯恩说。“我们会自动说话,但我们不愿意认为有什么东西会自动替我们说话。”

在1939年底的旧金山金门国际博览会上,Voder再次亮相,但在那之后,这台机器几乎立刻消失了。这台机器从未打算作为商业产品,而是作为一种概念验证,展示当时贝尔实验室惊人的工作成果。

尽管如此,Voder Pedro仍然可以被人们记住,因为它是我们对语音合成技术背后的迷人一瞥,我们今天在siri等技术中认为这是理所当然的——更不用说上次有人试图像钢琴一样演奏人声。