声学和信号处理的一些畅想:呼唤真正的理论突破
作者注:仅仅是我的畅想,我的专业并非此领域,所以难免对现在最新的研究成果不了解以及一些表述不妥当。仅仅是我的感慨,觉得这个领域很神奇但是现在依旧一筹莫展。语言是一个很神奇的东西,可以将人类的知识代代相传,可以让人与人之间相互交流。所以人类很早也自然开始了语言及声学方面的研究。
1860年4月9日,法国巴黎人斯科特录制了一名女歌手在演唱一首法国摇篮曲的片段。采用的方法是通过其发明的“声波振动记录仪”将声波录制到一张被油灯熏黑的纸上而成。但是斯科特没有办法将声音还原。虽然最近科学家通过现代科技,将这个声波记录数字化并播放了,但是在当时,人们还并没有清醒地认识到语言的全部信息与奥妙全部都在这个熏黑的纸片上。
1875年,22岁的苏格兰籍青年,美国波士顿大学语言学教授贝尔发明了电话,2年多之后,也就是1978年贝尔在纽约和波士顿之间实现了长途电话。这在当时是轰动时间的科学进展,也表明了人类的语言并非嘴巴的专利,语言其实是机械的物理现象,语言就是特殊规律的振动。但是人们并不知道什么样的规律是什么样的字(词),但是没有关系,通过调制再解调的方法,可以把用人类的语言信号来控制另外一个机械设备的振动,于是这个机械设备就会“说人话”了。
在贝尔刚刚发明电话的不久,年轻的爱迪生受到贝尔的电话的启示,发明了留声机。于是人类不仅仅可以用现在的语音信号来控制机械振动,还可以实现用以前的语音信号来控制机械振动,实现了“把声音留住”的梦想,这也是当时划时代的科学发明。
至于后来发明的磁带式录音机、VCD、DVD,以及现在更新的科技的语音信号存储及播放技术,我觉得都没有爱迪生的发明伟大,理由是其他都是技术细节上的或大或小的改进,而爱迪生是划时代的思想!当然,贝尔更伟大,因为他是最早实现了可以用语音信号来控制机械振动的方法实现机械可以讲人话。也证明了人类的语言不过就是机械振动,没有什么神奇之处。
但是遗憾的是,100多年过去了,人类在比尔和爱迪生的基础上,利用各种新技术,把他们的电话技术和录音技术做了无数的改进,但是没有人能在对人类语言研究的基础上,做出同样意义的突破。直到目前为止,我们不管采用什么样的技术,所实现的功能,依旧和爱迪生、贝尔一样的功能。
(1) 人类依旧是用语音信号来控制机械振动的方法才会让机械装置“说话”,没有什么机械可以说人类能听懂的“自己的话”。人类从婴儿时期开始,逐渐就学会了控制自己的发声器官来讲话,但是人类对这个过程的理解还不够多,没有发明会自己说话的机器。
(2) 人类依旧是使用还原语音信号的振动的方式来实现对语音信号的解调。没有实现不通过人类的听觉对语音记录的分析与理解。
其实上述两个问题,是目前研究的热点和难点,分别是语音信号合成及自然语言理解。虽然在这两个领域也做了很多工作,取得了一定的成就(譬如实现了在一定的条件下对一些简单的词汇的语音识别),但是还没有真正从原理上突破这两个领域。
我并非这个领域的研究人员,但是因为接触一些振动信号的处理与分析,于是自然而然想起作为最复杂也使最美妙的振动——人类的语言来。人类的语言有如下特点:
· 不随音量的大小变化而变化,成比例地增加调制语音信号的功率,仅仅改变音量,语言本省并没有任何变化。
· 不随音调高低变化而变化。不管我们用高八度还是低八度,不管男人女人还是小孩子(音调不同),说的话都是同样的语言。
· 语言的一切信息全部在声波压强的时间历程曲线里,记录下这个曲线,然后让机械装置实现同样的声压的振动,就可以完全恢复声音信号(当然实际在传播和恢复的过程中都会有所区别,也就是所谓的失真)。
而按照现在的科学体系,我们理解声音有响度和频率两个明确的指标以及音品(目前还不是很明确的物理指标),那么也就使说,如果对语音信号的幅度按照比例压缩或者放大(改变响度)或者把时间轴按照比例压缩或者放大(改变音调),语言的内容并不随之改变(当然也有一定的范围,譬如如果把音频信号按照2倍速度播放,只是语速变快,语言不变,但是按照10倍速度播放,你就完全听不懂了)。更神奇的是,有口音的人或者感冒后说话,还是能听懂,这说明语言本身应该是一种统计特征。且这个统计特征与信号的幅度并在一定的范围内与信号的频率无关。
我查阅了一些论文,做语音识别的人有的采用什么倒谱之类的数学变化,有的使用时频联合分布,都在一定的条件下取得了一定的成果,但是都只要稍稍增加难度就难以为继。我猜想,人类的语言应该本质上,不是按照倒谱或者时频联合分布编码的。但是这个编码方式是什么呢?
再降低难度,不实现自然语言的识别,而是实现音品的识别,目前对音品的理解也远远不够。我查阅了一些文献,有的认为音品是一次以上的谐波产生的。音品确实与谐波有诸多关系,但是显然并不仅仅是由谐波控制的。针对这个问题,计算机识别领域的研究人员试图解决它以实现乐器识别(不同的乐器音品不同——哪怕演奏同一个曲子)及说话人身份识别(咱们隔着门就凭借一声“是我”就可以判断说话人)。但是目前也没有解决得很好。
目前人们可以合成一些简单的音品,但是还无法准确地理解不同乐器的音品以及不同人的声音的区别的真正因素。音品显然也是一个不随响度和频率变化而变化的特征。
目前人类理解时程曲线,要么是时域要么是频域,但是这两种方法显然没有理解声音的全部奥妙,因此无法用这两个域的概念提出准确的物理概念来描述音品及自然语言。
这个看似简单的问题,如果真的解决了,将会带来一场革命,也将是继贝尔和爱迪生两位使用语音信号控制机械振动实现“机械会说话”以后的一场新的革命。人类将不仅可以造出会自己说话的机器人,还可以造出能听懂自然语言的人,当人类对音频信号的理解达到这个程度以后,随着衍生的各种技术也必然极大地改变了人类的生活!
但是问题是,人类距离这一天恐怕还相当遥远。目前人们对平稳信号和非平稳信号的各种方法(傅里叶变换、加窗短时傅里叶变化、小波变换、HHT 变换等)都还是数学系统在物理中的应用,依旧没有能力描述音频信号的真正特性。
到什么时候人们可以解决我说的上述问题(自然语言生成和自然语言识别)呢?上帝真的是太伟大了,设计出这么复杂而多彩的社会,设计出这么强大的功能的生物体。
本文转载自科学网王邦进的博客,作者:书剑子,略有删减
页:
[1]