在线工博会

车上设备人机语音接口
吉林大学 秦贵和 张洪坤 葛安林 李柱张
为节省流量,手机版未显示文章中的图片,请点击此处浏览网页版
[摘要] 本文介绍了一个通过车上网络方式访问车上设备的语音接口。通过这个接口,驾驶员可以用语音命令控制车上设备和获得语音方式的反馈信息。这个接口装置是按车上网络的一个节点来设计的,它通过车上网络访问车上设备。硬件的核心是RSC364 微处理器。对系统的结构命令处理算法以及网络接口等进行了详细设计。这种接口在家庭轿车上有应用前景。
关键词:接口技术 车上网络 语音识别与合成 车上设备
1 前言
随着社会信息化的不断深入,车上设备及其功能不断增加,驾驶中使用这些设备的频率很高。由于驾驶员的视觉和手直接控制驾驶操作,传统的基于视觉和手操作的人机接口访问方式,无法适应驾驶中对不断增加的车上设备的访问;不仅使用不方便,而且极大地影响安全性,并占用大量的车上空间。由于驾驶中使用类似于手机等设备引发的事故不断增加,很多地方禁止驾驶中使用这些设备。在对车上设备访问方式进行评估中,由于语言访问方式不需要视觉和手的直接介入,安全性、使用方便性以及占用车上空间等指标远高于其它方式,被认为是最有发展潜力的人机接口方式[1][2][3]。语言交流方式也是人类最自然的交互方式,随着语音识别和语音合成等相关技术的不断成熟,语言接口将不断取代目前基于视觉和手操作的接口。基于语言的人机访问接口将是车上设备人机接口的发展方向。
随着车上电子设备与装置不断增多,传统的连接方式已无法适应线束数量和连接复杂程度的增加,车上网络技术越来越受到重视;普遍认为,所有车上电子装置将通过车上网络连接。车上网络协议以及支撑器件的工业化和标准化也发展非常快。在不久的将来,所有车上电子装置都将通过车上网络连接。所以本系统与被访问的设备之间采用网络连接方式。这有利于本系统与被访问设备的硬件连接和推广应用。它与车上网络之间通过标准网络协议进行通信。把语音接口纳入到车上网络体系中,也是连接语音接口与被访问设备的最有效方式。
车上语音接口的支撑技术是小词汇量语音识别、语音合成和车上网络技术。小词汇量语音识别技术(尤其是孤立词小词汇量识别)已经达到实用水平。采用隐马尔可夫模型的小词汇量识别可以在非特定人和高噪声环境下可靠工作并达到很高的识别率[4]。对于大量的私人用轿车,可以采用特定人识别方式,不仅可以达到更高的识别率,而且可以适应个人说话口音等因素。车上网络已经有较成熟的系统,如CAN 总线、MOST 总线等。而且越来越多的车上设备和总成支持网络连接方式。这些对与本文介绍的系统将来在车上的推广应用提供了有利的支持。
这方面的技术是国际上汽车电子技术研究的一个新领域,被认为是将来车上人机接口的必然发展方向,在我国尚未开展相关研究开发工作。对这项技术进行研究,并开发具有自主知识产权的技术产品,对提高我国汽车整体技术水平,提高我国汽车信息与电子技术产品的市场竞争力,具有重要意义。将来在车上使用语音人机接口方式,已经是一种共识,这项技术的市场潜力巨大。由于在车上应用语音接口方式的显著优点,和语音识别与合成技术已经进入实用阶段,也就是足以支持这类语音接口,国际上各大汽车公司和相应的配件厂家正展开车上语言人机访问方式一系列相关技术的研究,并且取得了一些成果。BOSCH公司最近已经开发出了较为实用的车用语言操纵系统。SENSORY 等公司开发了适用于车辆环境的语音处理器件。这些工作目前还处于开发与完善阶段,不久将进入市场;预计,首先在高档车上使用,随着技术不断成熟成本将下降很快,然后在其它类型车上广泛应用。
2 车上设备与装置
这个语音接口访问的车上设备和功能主要包括通信装置(如电话)、车上计算机、车上媒体装置(如音响设备、CD 播放机等)、车上辅助装置(如空调、车门窗、后视镜等)。语音接口访问的设备不包括驾驶操作中影响安全性的装置和设备(如转向、信号、制动、加速踏板等)。这个接口与被访问设备之间按标准车上网络协议进行连接。
车上语音接口,一方面是一个驾驶员访问其他设备的界面,另一方面它也是一个车用设备。设计中必须遵循汽车环境要求的指标。在汽车环境下应用的设备必须满足一些特定的要求,包括:
(1) 高可靠性;
(2) 低成本;
(3) 工作温度范围-40~125℃;
(4) 应用方便;
(5) 体积小,安装灵活;
(6) 满足环保和电磁兼容要求;
(7) 驾驶中应用时,基本不分散驾驶员的视觉和手操纵的注意力;
(8) 在汽车可能出现的任何状态下,它是安全的(不应引起有害后果)。
3 系统功能与操作方式
3.1 车上语音接口的功能
车上语音接口的主要功能包括:
(1) 上设备的语言命令控制;即通过这个接口,驾驶员可以用语言命令对这些设备进行操作。
(2) 表盘;即可以通过语音方式给出传统仪表盘上的各种汽车状态信息,如车速、燃料状态、蓄电池状态、故障状态信息以及车上数据库信息等。
(3) 语音形式的提示与报警功能。
3.2 基本操作方式
这个语音接口的基本操作为:
(1) 启动:当汽车上电时,这个系统初始化,并进入接受语音命令状态。初始化也可以通过初始化按键随时重新进入。
(2) 初始化完成后,系统可以接受系统控制命令、设备控制命令和信息数据请求命令。
(3) 系统控制命令用于设置和检查语音接口系统状态。
(4) 设备控制命令完成设备访问功能。
(5) 信息数据请求命令完成获取汽车状态或其他数据库中信息的访问。
4 车上语音接口硬件结构
由于这个接口是通过车上网络与被访问系统连接,这个接口本身就是网络中的一个节点。它首先识别输入的语音命令信息,识别后根据识别的结果发送访问命令信息。在这个实验系统中,语音接口通过CAN网络与被访问设备连接。系统硬件结构如图1 所示。它由两个信息通路构成,一个是由驾驶员到被访问设备的控制命令通路,包括拾音器、语音识别、控制信号转换以及与被控制设备的接口。另一个是由信息源或设备到驾驶员的反馈信息通路,包括信息获取设备接口、数据到词句的转换以及语音合成和发音器。语音识别部分完成识别驾驶员命令并转换为命令代码的功能。信号转换部分把命令代码转换为能控制对应设备的电信号形式。这个接口支持数字信号、模拟信号、串行接口信号和CAN 总线网络连接方式。

(图片)

图1 硬件结构

对于网络连接方式,只要它的应用层支持,原则上任何连入网络的设备都可以通过这个接口访问。在反馈信息转换部分,反馈的数据或其它形式的信息帧中的数据被转换为对应的词句,在通过语音合成后送入发音器。
实验系统中,核心处理器采用Sensory 公司专门用于语音处理的微处理器芯片的RSC364,它通过CAN控制器接口Intel82527 连入网络。微处理器RSC364 与Intel82527 的连接如图2。

(图片)

图2 RSC364 与Intel2527 的连接

5 软件结构
语音接口系统的软件包括语音输入滤波程序、语音识别程序、信号转换程序、命令词集数据结构以及网络通信的控制程序等。其总体结构如图3 所示。系统初始化模块包括软件初始化和硬件初始化两部分。硬件初始化主要完成RSC364 和Intel82527 的状态设置。初始化完成后,系统处于等待命令输入状态。当一个命令被识别后,根据识别出的命令分类结果确定下一步的处理。如果这个命令属于系统控制命令则执行系统控制命令处理程序;如果是设备控制命令则转入设备控制命令处理;如果是数据信息请求命令则转入数据信息请求命令处理模块。在每一个模块中,又根据具体不同的命令执行对应的程序。

(图片)

图3 软件结构

6 语音命令处理策略
语音接口中最重要也是最难处理的是语音命令的识别部分。在车辆环境下,识别方法必须对车辆运行中可能的噪声和车内的回音具有鲁棒性,并且要有足够高的识别准确率和具有响应的实时性。为了实现这些目标,这个系统中,在语音信号输入通道中引入了噪声抵消和回音抵消技术;在语音识别算法中采用多步分层策略,使每一步的有效待识别词汇集尽量小,以提高每一步识别的准确度和提高识别速度。
在语音识别中另外一个问题是对说话人口音语速等方面的适应。由于汽车具有特定人使用的特点,也就是一般有一个特定的人使用这个汽车,所以这个语音识别过程采用特定人语音识别技术,而且RSC364支持特定人语音识别,并具有很高的识别率。它可由使用者直接训练语音识别系统,形成词汇的模板可以大大提高系统对这个使用者的语音识别准确度。
在汽车一定的状态下,和当前输入的命令状态下,下一步输入的可能的有效命令构成这个命令的一个合法后续命令集,依次类推,语音命令之间构成一个树型结构,称为命令树。在正确识别一个命令后,其后续输入的语音识别只在已识别命令的孩子节点集中进行。根据归纳的情况,一个命令的有效后续命令不超过20 个。在这样的词汇集中进行识别,可以达到很高的识别率,而且识别速度很快。
命令树有三层。第一层的可能命令集为:
Top={“复位”,“退出”,“状态”,“故障”,“关闭”,“电话”,“CD”,“车窗”,“空调”,“导航”,“启动提示”,“关闭提示”,“信箱” }
其中有后续(下层)命令的命令有 “电话”,“CD”,“车窗”,“空调”,“导航”, “信箱”表示要打电话的“电话”命令的后续命令有:
Tel-1={“拨号”,“挂机”,“重拨”}
其中,“拨号”的后续命令集为:
Tel-2={“0”, “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8”, “9”, “通话”}。
表示播放C1D 的命令 “CD” 的后续命令集为:
CD-1={“播放”,“关机”,“增大”,“降低”}
车窗控制命令 “车窗”的后续命令集为:
Win-1={“左前”,“左后”,“右前”,“右后”}
表示选择要操作的车窗。其中每一个命令都对应有以下后续命令集:
Win-2={“升”,“降”,“停”}
表示要进行空调操作的“空调”命令有以下后续操作:
AC-1={“启动”,“关闭”,“提高”,“降低”}
在每一种命令的操作过程中都可以通过“复位”命令终止这个过程,而回到初始化时的状态。
每一个命令集在RSC364 中都用一个单独的词汇模板,以便进行训练。
7 结束语
本文介绍的系统可以作为一个统一的车上人机语音接口。与其它方式比较具有以下特点:
(1) 成本和价格完全处于车上应用能够接受的范围;单片机(嵌入式系统)能够满足其对计算能力和存储量的要求。
(2) 采用噪声和回声抵消等技术,使其完全能够满足车上环境的应用要求,可以达到用户接受的准确率。
(3) 通过网络与被访问设备连接,结构灵活、连接线路简单、适应性强。
基于语音的车上设备人机界面被认为是最自然、最安全、也最有发展潜力的人机交互方式。本文介绍的工作,目前还处于研究开发初级阶段,要应用于实车还有很多工作;而且,涉及到车上其它设备的连接问题。但是,这里给出的技术方法已经勾画出了一个完整的体系结构,进一步的工作可以在其基础上细化完成。汽车电子装置的网络化连接已经是一个必然的趋势,在这些装置具备网络连接接口时,本系统的连入就是一个非常自然和简单的事情了。虽然从目前的情况看,语音接口方式还不能推广应用,但它是一项必然要采用的技术方法。超前的研究开发工作对提高我国汽车电子技术水平具有实际意义。
参考文献
1 Charles J. Murray. “Automakers struggle with speech recognition technology,” EE Times Dec 1, 2000
2 Deborah F.Allinger. Charles Strauss and Dennis Kwon. “ Applications of speech technology to unmanned vehicles,” 20th Digital Avionics Systems Conference, Volume: 1, 2001. Page(s): 5B4/1 -5B4/9
3 T. Kuhn, A.Jameel, M.Stumpfle and A. Haddadi, “Hybrid in-car speech recognition for mobile multimedia application.” IEEE 49th Vehicular Technology Conference, Volume: 3 , 1999. Page(s): 2009~2013
4 Lawrence Rabiner, B-H Juang. “Fundamentals of Speech Recognition”. 北京:清华大学出版社,1999 5/8/2005


电脑版 客户端 关于我们
佳工机电网 - 机电行业首选网站