《得到头条》科技前沿:怎么让AI语音更有“人情味”?



今天我们从两个话题出发,为你提供知识服务。一是中国银行业客服人员大幅下降,二是口腔连锁医院瑞尔集团在港交所上市。

今天的第一条,来自彭天放老师的硬科技报告。

最近,中国银行业协会发布《2021年中国银行业服务报告》。其中提到,银行业客服人员在经过5年的持续增长之后,在2021年出现了首次下降,减少了将近8%。下降的主要原因,是各家银行加大了人工智能客服的投入力度。据艾瑞咨询统计,从2018年~2021年,银行业对AI产品的投入规模以年均近30%的速度增长。各大银行希望用AI客服来提升服务质量,解决当前客服系统等待时间长、不能做到24小时服务等问题。

不过,目前上线的AI客服系统,也受到客户的不少诟病。有一项调查显示,超五成受访者遇到过客服交流障碍,其中71.2%表示AI客服“答非所问”、不能听懂要求,23.6%反映,无法找到真人客服或遭遇踢皮球,问题得不到解决。AI客服想要达到真人客服的服务质量,还任重而道远。

消息就是这样,来看看能学到什么知识。

这里我们先不说AI客服能不能真的给你解决问题,就是从纯粹的交流感受来说,AI客服也不尽如人意。比如,你给AI客服打电话的时候,不管你表达出自己有多着急,对方都“波澜不惊”,始终保持一种不紧不慢、平平淡淡的语调在说话,让你气不打一处来。这种“只传递信息,不理会情绪”的沟通,确实不像是“人”干的事。

那么,怎么才能让AI语音听起来更有“人情味”呢?最近,美国META公司,也就是改名后的脸书,在官网上发布了关于这个问题的一系列研究成果,让AI语音越来越接近真人说话。我把印象比较深刻的几点跟你汇报一下。

首先,怎么让AI语音在说话时能够带上情绪?这里,我放两段META公司官网上的原声语音,你感受一下。

这两段语音的文字内容是完全一样的,第一段语音是我们熟悉的那种平平淡淡的AI语音,而第二段语音就是这次研究成果发布的,由AI添加了欢快情绪的语音。虽然内容是英文,但我们还可以听出来,第二段语音不仅在语调上更加轻松愉快,甚至还被算法“即兴”添加了笑声,和笑声所带来的呼吸变化。

这是怎么做到的呢?其实,这项技术的背后是META公司开发的一种新的语音算法,叫做生成式口语模型(Generative Spoken Language Model,GSLM)。这种模型和传统的语言模型最大的区别是:传统的语言模型,通常是先对录音数据进行文本信息的提取和标注,再做其他的计算;而这个生成式口语模型,是直接对录音数据进行处理加工。

这样解释可能还是不好理解,我用图像处理来做个类比。这就好比对一张照片进行修改,传统的算法是首先识别照片里都有哪些桌椅板凳,然后把这些桌椅板凳的位置标出来。后续的计算,使用的都是某某位置有个桌子、椅子这样的高度浓缩的信息。像是桌子表面脏不脏、椅子旧不旧这些细节就被丢弃掉了。这种处理模式对应到语音数据,就是只提取话里的文字信息,而把语气、语调等细节丢弃掉了。

META开发的新模型,有点像我们用的修图软件,可以直接给整张图片加滤镜,加美颜。对应到语音数据,有关语气、语调的数据就可以被保留下来,并且可以进行后续的添加修改。最终就形成了我们刚刚听到的效果。对于同样一段话,META公司发布的AI模型,可以用愉快、生气、失落、困倦这四种情绪说出来,听起来都很自然。

好,情绪问题有解了,我们再来看第二个难题。

你看,两个人正常对话的时候,往往是一个人一边说,另一个人一边给出回应,“嗯,对啊,可不是嘛”。俗话说“三分逗七分捧”,对话中给出“嗯,啊”这样的回应特别重要。但是你发现没有,AI客服在和我们说话的时候,会特别“安静”,也就是,非要等我们把一句话全部说话之后,过一两秒,对方才好像回过神一样接着往下说。

META公司开发的这个生成式口语模型,同样可以解决这个谈话中的交互问题。我再给你放一段META官网上的语音,这是两个AI机器人在相互对话,你感受一下。

你看,这两个机器人之间的对话,不仅可以应对语句之间语音相互交叠的情况,还可以在对方话说到一半的时候,另一方就给予温柔的语气回应,听起来确实要更有人情味。要实现这样的对话效果,要求算法不仅仅是逼真地模拟人类的情绪表达,而且还需要准确地识别对方的语音中所包含的情绪,这样,才能对情绪进行恰当地回应。

如果能够准确地识别情绪和表达情绪,这将是AI语音技术的一个重大突破。毕竟,人类之间的有效沟通,都是“先处理情绪,再处理问题”。沟通是一门温暖的艺术,AI语音,也可以是一件越来越温柔的发明。

 

来看今天的第二条。

最近,做口腔连锁医院的瑞尔集团在港交所成功上市。这是自去年做口腔正畸的“时代天使”赴港上市以来,又一起让资本圈关注的IPO。瑞尔集团上市之前有5轮融资,包括高盛、凯鹏华盈、启明创投、高瓴等著名机构都有投资。今年2月份,做牙刷、牙膏、漱口水等口腔护理产品的薇美姿,也向港交所递交了招股说明书。口腔医疗护理行业,正在成为创投圈最受关注的热门赛道。

创投圈有种说法,叫“金眼银牙铜骨”,意思是赚钱的专科医院,眼科最好,其次是口腔,然后是骨科。据行业统计,今年一季度,口腔领域就有19起投融资案例,投融资规模近30亿元人民币。

不光是像正畸、种牙这样的医疗项目受追捧,像智能牙刷、漱口水这样的细分赛道也非常火爆。比如有一家做漱口水的新品牌,叫“参半”,成立4年,获得了10轮融资,字节跳动连续两轮追投。参半上线第二个月,就成为淘宝漱口水品类下的第二名,硬生生从老牌漱口水巨头李施德林那儿抢下一大块市场。

消息就是这样,来看看能学到什么知识。

你知道,口腔护理传统上属于日化领域,多年来被几大国际日化巨头牢牢把控,从广告宣传到线下渠道都铺得密不透风,新品牌很难有突破的机会。那么,像参半这样的黑马是怎么跑出来的呢?我们发现,参半的成功,除了像其他新国货那样运用纯熟的互联网营销打法,更重要的是,和老品牌实现各个方面的差异化定位。可以说,参半几乎是重新定义了漱口水这个产品。

第一,从产品功能上做差异。传统的漱口水更接近于医疗用品,功效明确为“清洁口腔”。而参半,把漱口水定义为像口香糖那样的日用品,主打功效不是“清洁口腔”,而是“口气清新”。不要小看这个定位的区别,“清洁口腔”针对健康需求,而“口气清新”事关个人形象,针对社交需求。显然,对年轻人来说,他可能对健康问题不怎么上心,但一定对个人形象超级重视。

第二,从产品设计上做差异。传统的漱口水是那种一成不变的医用蓝色,让人一看就有距离感;口感上,因为添加了酒精,入口之后有种很辣口的感觉,很多人适应不了。包装上,是那种动不动就500ml以上的大瓶。

而参半把漱口水做成了高颜值商品,粉红、粉蓝、粉紫等各种颜色,怎么好看怎么来;口感上,参半研制了无酒精的新配方,用起来不会再辣口;包装上,推出了条状的小包装,一次用一条。以后不用在包包里放口香糖了,而是放几条参半漱口水,约会前、三餐后就拿出一条来漱口。

第三,从产品渠道上做差异。线上优势不用说,参半基本是吊打老牌漱口水。如果看线下铺货的话,传统漱口水是放在药店里,或者超市里跟牙膏牙刷等产品摆在一起。而参半新开发了便利店和美妆店路线,铺货到全家、屈臣氏、调色师等。在做超市渠道的时候,参半也争取不放在传统的口腔护理区,而跟口香糖一样放在结账的收银台旁边,便于消费者随手拿取。

参半的联合创始人张轶说,以前的口腔护理产品,大家都是把它当药来卖,更多是一种耐用品,就算是牙膏,消费者也不会经常买。如今,口腔护理赛道最大的机会来自于口腔护理消费品的快消化,也就是像矿泉水那样即买即喝,大量消耗。而要成为快消品,就必须想方设法降低用户的使用门槛,使用门槛降低了,购买频次才能上去。参半对漱口水的重新定位,不是为了差异化而差异化,而是在围绕优化用户体验、降低使用门槛做文章。

聯系郵箱:0xniumao@gmail.com