声纹识别渐行渐近
王梦然
①所谓声纹,就是人的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官——舌、牙齿、喉头、鼻腔、肺,在尺寸和形态方面因人而异,所以每个人的“声纹”都是唯一的。
②事实上,声纹技术在远程身份认证中的重要性正变得越来越突出,逐渐应用在社保、金融、公安等领域。前阶段,我国“声纹+”身份认证云项目落户内蒙古,将为更多百姓带来网络身份认证的安全与便利。相关人士指出,未来两至三年将是声纹技术发展的关键期,声纹认证将逐渐从内蒙古辐射到宁夏、甘肃等地。
③也有科学家根据人的面部、身高等数据合成、模拟人的声音。最近,日本音响研究所的铃木松美提出一个观点:“蒙娜丽莎”不仅容貌与达·芬奇的自画像相似,且用声纹技术从数量上证实了“蒙娜丽莎”的声音与达·芬奇一模一样。“人的声音是由振动声带并通过喉咙在口腔或鼻腔共振发生的,因此声带的形状或大小及从喉咙到口腔的容积,成为决定个人声音的主要因素。”科学家们认为,若有容颜的形状或身高的数据,借助语言合成器,就有可能惟妙惟肖地模仿出历史人物的声音。
④在日本科学家开发出的声音发生器PC-6001MKII系统中,至少要输入12项数据,包括颧骨的宽度,从眼睛下到鼻尖每隔1厘米的大小以及从其下到下巴每隔1厘米的大小,嘴宽,从两眼间中心到嘴的位置,鼻尖和枕骨部每隔1厘米的大小,身高,年龄,性别,等等。如果数据不足,也可设定最相近的值补充。不过,这种“标准的”合成音剔除了人的个性习惯、方言等社会因素,要达到“乱真”的程度恐怕很难。
⑤不同人在发出同一语音时,会产生一定差别的声纹,这种差别就体现了个人特征,所以声谱仪可以帮助人们分辨语言。有时即使言语很模糊,甚至词不达意,也都可以辨明。目前,声纹识别已成为侦破刑事案件的重要手段之一。
⑥大脑机械论专家统计,一分钟内一个人所说词句的完整声纹图含有近200万比特。而普通人大脑里处理信息的速度不超过每秒45比特。换句话说,我们大约只利用了词句声纹图的千分之一,就能懂得其中含义,其余大量多余的声纹不仅能使我们了解交谈者,还能从成千上万的其他人中辨认出他。
⑦声纹识别虽然目前还没在智能手机这样的消费级产品中普及,但在银行交易和国防安全等领域已广泛应用。据外媒报道,巴克莱银行、汇丰银行、哈里法克斯银行等多家英国银行目前都支持声纹识别。2019年4月,汇丰银行宣布,自2016年推出声纹识别以来,声纹识别系统已被160万客户使用了1500万次,阻止了价值3.3亿英镑的银行诈骗,未来还可能通过声纹识别帮助警方抓捕那些难以追踪的诈骗者。
⑧“发展大数据产业,必须从源头开始高度重视个人信息保护。是否有利于个人信息保护,应成为评估新兴技术是否适合大数据构建和应用的关键考量。”国家信息中心首席工程师李新友认为,未来声纹技术将在电子政务方面发挥更大优势。
⑨此外,声纹识别还成为社保领域实现远程身份验证的关键技术。声扬科技总经理李亚桐介绍,公司之前为印尼国家公务员保险储蓄基金公司提供了一套解决方案,即通过声纹识别和智能语音技术实现远程身份验证,解决了印尼250万离退休人员的养老金领取难题。“这一案例具有典范性,声纹识别不久将在更多国家的社保领域成功实施。”业界认为,根据不同的场景进行有针对性的声纹识别的开发,将产生巨大的商业价值和社会价值。相信在正确的引导和业界的共同努力下,声纹识别技术未来一定能在各个领域开花结果,走进更多普通人的生活。
(选自《发明与创新·大科技》2020年第3期,有删改)