您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页浅论语音信号处理方法及应用

浅论语音信号处理方法及应用

来源:华佗健康网


浅论语音信号处理方法及应用

摘要:语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。

关键词:语音信号 处理 应用

众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。

1. 语音信号所包含的信息量

语音信号中到底包含了多少信息量,需要多少比特才能够无失真地表示它们,这对于语音编码、语音合成和语音识别的研究都是很有用的。但是这也是一个很复杂的问题,它涉及到对于信号失真的评价。下面列举了三种评价,其中两种是由弗雷雷格(Flanagan)给出的,另一种是由约翰斯登(Johnston)提出的。它们是建立在下面三种不同的失真评价上:(1)语音信号的信噪比;(2)接收语音信号时,信号由听觉外围处理以后,人们在主观上能够感觉到的失真;(3)人在接收语音信号时,不正确接收音素的数目和正确接收音素数目的比值。

2.语音信号处理的关键技术

语音信号处理的理论基础就是一般的数字信号处理理论,它的主要研究内容是语音编码和语音压缩技术。考虑到人对听觉煤体的感应特点,研究语音信号处理必须与声音心理系起来。

2.1 声音心理学声音的物理属性和心理

属性既有联系也有区别。声音有两个最明显的量纲,即响度和单调,其它还有音色、谐和、不谐和与乐意等。物理属性主要有强度和频率。声音的正弦波的强度增加,声的响度也增加;频率增加,音调南昌增高。但这些关系不是线性的,且是耦合的,如频率的变化既影响响度也影响音调。

人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效应,如屏蔽效应。声的响度不仅取决于白身的强度和频率,而且也依赖同时出现的其它声音而定。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号

的压缩。

2.2 语音编码

语音编码分为三类:波形编码、参量编码和混合编码。波形编码是将时域信号直接变换为数字代码,其日的是尽可能精确地再现原来的话音波形。自适应量化、自适应比特分配和矢量量化等等。

现代数字信号处理的进步都能在语音信号处理技术中得到应用。语音信号是最能体现信号非线性的一个领域。现代数字信号处理的一个主要发展趋势是对非线性、非平稳信号的研究。因此,循环而平稳信号分析、多谱分析和时频尺度理论对于语音信号的表示,关键特征的捕捉有很重要的应用前景。

3.语音信号数字处理应用

下面我们重点来谈谈语音信号数字处理应用技术领域中的语音编码、语音合成、语音识别与语音理解技术。

3.1 语音编码技术(Speech Coding Technology)

在语音信号数字处理过程中,语音编码技术是至关重要的,直接影响到话音存储、语音合成、语音识别与理解。语音编码是模拟语音信号实现数字化的基本手段。语音信号是一种时变的准周期信号,而经过编码描述以后,语音信号可以作为数字数据来传输、存储或处理,因而具有一般数字信号的优点。语音编码主要有三种方式:波形编码、信源编码(又称声码器) 和混合编码,这三种方式都涉及到语音的压缩编码技术。通常把编码速率低于 kbps的语音编码方式称为语音压缩编码技术。如何在尽量减少失真的情况下,降低语音编码的比特数已成为语音压缩编码技术的主要内容。换言之,在相同编码比特率下,如何取得更高质量的恢复语音是较高质量语音编码系统的要求。

3.2 语音合成技术(Speech Synthesis Technology)

语音合成技术就是所谓“会说话的机器”。它可分为三类:波形编码合成、参数式合成和规则合成。波形编码合成以语句、短语、词或音节为合成单元。合成单元的语音信号被录取后直接进行数字编码,经数据压缩组成一个合成语音库。重放时根据待输出的信息,在语音库中取出相应的合成单元的波形数据,将它们连接在一起,经解码还原成语音。参数式合成以音节或音素为合成单元。

3.3 语音识别技术(Speech Recognition Technology)

语音识别又称语音自动识别(Automated Speech Recognition,ASR),语音识别基于模式匹配的思想,从语音流中抽取声学特征,然后在特征空间完成模式的比较匹配,寻找最接近的词(字)作为识别结果。

几十年来,语音识别技术经历了从特定人(Speaker Dependent,SD)中小词汇量的孤立词语和连接词语的语音识别到非特定人(Speaker Independent,SI) 大词汇量的自然口语识别的发展历程。尽管如此,语音识别技术要走出实验室、全面融入人们的日常生活还需假以时日。当使用环境与训练环境有差异时,如在存在背景噪声、信道传输噪声、说话人语速和发音不标准等情况下,识别系统的性能往往会显著下降,无法满足实用的要求。环境噪声、方言和口音、口语识别已经成为目前语音识别中三个主要的新难题。

3.4、语音理解技术(Language Understanding Technology)

语音理解又称自然语音理解(Natural Language Understanding,NLU),其目的是实现人机智能化信息交换,构成通畅的人机语音通信。

目前,语音理解技术开始使计算机丢掉了键盘和鼠标,人们对语音理解的研究重点正拓展到特定应用领域的自然语音理解上。一些基于口语识别、语音合成和机器翻译的专用性系统开始出现,如信息发布系统、语音应答系统、会议同声翻译系统、多语种口语互译系统等等,正受到各方面越来越多的关注。这些系统可以按照人类的自然语音指令完成有关的任务,提供必要的信息服务,实现交互式语音反馈。

语音是语言的声学表现形式,是最符合人类自然习惯的一种人际信息传播方式,具有便捷性、高效性、随机性、交互性等显著特点,是实现人机交互的一种重要通信方式。可以预见,随着计算机技术、数字信号处理技术和大规模集成电路的迅速发展,语音信号数字处理技术将成为信息化战争不可或缺的重要组成部分,并直接进入到信息化战争的前沿。

参考文献:

[1]李昌立,吴善培编著. 数字语音——语音编码实用教程.人民邮电出版社,2004

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务