发布日期:2025-12-13 22:55点击次数:

这项由伊朗谢里夫理工大学的马赫塔·费特拉特(Mahta Fetrat)、多尼亚·纳瓦比(Donya Navabi)、扎赫拉·德赫加尼安(Zahra Dehghanian)、莫尔特扎·阿博尔加塞米(Morteza Abolghasemi)和哈米德·拉比(Hamid R. Rabiee)教授的征询团队,在2025年12月发表了一篇题为《Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS》的论文,编号为arXiv:2512.08006v1。有敬爱深入了解的读者不错通过该编号查询无缺论文。
当你使用手机的语音助手时,有莫得发现它偶然候谈话听起来像机器东谈主,格外是遭受一些复杂词汇时会读错音?这个问题在语音合成本领中一直困扰着征询东谈主员。语音合设置像是给机器装上一张嘴巴,让它卤莽把笔墨调整成声息说出来。这项本领关于视障东谈主士使用的屏幕阅读器格外蹙迫,因为他们需要长时代听机器诵读笔墨,如果声息不天然或者读音诞妄,会严重影响使用体验。
征询团队发现了语音合成本领中的一个中枢矛盾:如果要让机器谈话听起来天然,就需要使用复杂的东谈主工智能模子,但这些模子运算速率慢,无法完结及时对话;如果选拔运算速率快的浅显模子,谈话就会听起来很机械,格外是在处理语音调整的第一步——将笔墨调整为发音象征时,平素出错。
这就好比厨师作念菜时濒临的选拔:要么用复杂的烹调技法作念出好吃但耗时的大餐,要么快速制作浅显但口味一般的快餐。征询团队念念要找到一种时事,既能保证菜品好吃(语音天然),又能快速上菜(及时反应)。
他们以波斯语为征询对象,发现了两个格外难办的问题。第一个问题叫作念"同形异音词",就像英文中的"read"这个词,在"I read a book"(我读一册书)中读作/ri:d/,但在"I read yesterday"(我昨天读了)中却要读作/r?d/。机器如果不睬解高下文,就无法判断该用哪种读音。第二个问题是波斯语私有的"伊扎菲音",这是一个链接关连词汇的/e/音,就像汉文里的"的"字一样蹙迫。如果这个音添加错了方位,统统这个词句子的道理就会迷漫不同。
为了责罚这些问题,征询团队建议了一个编削的责罚决策,他们称之为"奇迹导向架构"。这种时事就像是开了一家餐厅,把复杂的烹调工序分派给不同的厨师站:有有意幽静处理食材的预处理站,有有意幽静调味的调味站,还有有意幽静最终烹调的主厨台。每个站点齐不错颓落职责,互不打扰,但又能很好地协作。
在语音合成系统中,征询团队把蓝本集成在一齐的各个功能模块拆分开来,让处理复杂语言问题的"智能模块"颓落开动,而幽静最终语音合成的"中枢引擎"则保握轻量化。这么一来,当用户输入笔墨时,系统起先用快速的基础模块生成初步的发音,然后把这个收尾传递给颓落开动的智能模块进行细致化处理,临了再回传给中枢引擎生成最终的语音。
这种想象的深重之处在于,复杂的智能模块固然运算量大,但它们在后台颓落开动,不会株连统统这个词系统的反应速率。就像餐厅里的主厨不错专心炒菜,而不必恭候洗菜工完成统统准备职责一样。
征询团队还开发了两种轻量化的语言处理本领。第一种本领基于统计学道理,通过分析无数文本数据,建立词汇共现关总共据库。当系统遭受同形异音词时,会检察这个词周围出现的其他词汇,然后选拔最可能的发音。这就像是证据菜品搭配来判断某个食材应该如那边理一样。
第二种本领则选定了"学问精粹"的时事。征询团队起先锤真金不怕火了一个大型的东谈主工智能模子,让它学会准确识别波斯语中的伊扎菲音。然后,他们把这个大模子的"学问"挪动到一个小得多的模子中,就像是把资深师父的本事传授给年青学徒一样。最终的小模子固然体积只消原来的卓绝之一,但准确率仍然保握在94%以上。
为了考证他们的时事是否果然灵验,征询团队进行了无数的测试。他们选拔了PiperTTS手脚基础平台——这是一个依然等闲运用的开源语音合成系统,格外符合在普通电脑上开动。征询团队用他们的新时事对PiperTTS进行了修订,然后与其他几种先进的语音合成系统进行对比。
测试收尾令东谈主印象久了。在发音准确性方面,修订后的系统在处理同形异音词时准确率从43.87%栽种到了77.67%,在伊扎菲音检测方面的进展更是从19.58%跃升到90.08%。更蹙迫的是,举座的发音诞妄率从6.32%缩短到了4.80%。这些修订在本色使用心仪味着什么呢?等于机器读出来的笔墨听起来更像真东谈主在谈话,而不是机械地按字读音。
在开动速率方面,传统的作念法是把统统功能聚积成在一齐,这么固然料理浅显,但会导致统统这个词系统变慢。征询团队的新时事通过奇迹分散,成效地将及时因子(RTF)保握在0.167操纵。及时因子是掂量语音合成速率的野心,0.167意味着生成1秒钟的语音只需要0.167秒的谋划时代,迷漫不错雀跃及时对话的需要。
更令东谈主昂扬的是,征询团队还邀请了16位母语为波斯语的测试者对语音质地进行主不雅评价。评价秩序是从1到5分,5分代表迷漫天然的东谈主声,1分代表最机械化的合成音。修订后的系统得到了3.14分的平均评分,而原始系统只消2.41分。固然距离真东谈主语音的4.21分还有差距,但这依然是一个权贵的最初。
这项征询的意旨不单是局限于波斯语。征询团队建议的奇迹导向架构不错运用到任何语言的语音合成系统中,格外是那些语法复杂、需要证据高下文判断发音的语言。关于汉文这么的语言来说,这种本领相似有很大的运用价值,因为汉文也存在无数的同音异义词和语境依赖的发音纪律。
从本色运用角度来看,这项本领的最大受益者将是需要长时代使用语音合成斥地的群体,格外是视障东谈主士。当屏幕阅读器卤莽更准确、更天然地诵读笔墨时,用户的学习和职责效力齐会权贵栽种。同期,这种本领也为语音助手、有声读物制作、语言学习软件等限度带来了新的可能性。
征询团队还格外强调了他们决策的通达性。统统的代码、模子和执行收尾齐依然公开发布,这意味着其他征询者和开发者不错在此基础上接续修订,或者将这些本领运用到我方的名目中。这种通达分享的魄力关于股东统统这个词语音合成本领的发展具有蹙迫意旨。
天然,这项征询也有一些甘休。征询团队坦诚地指出,即使责罚了发音准确性问题,要让机器语音达到迷漫天然的进度仍然濒临挑战。这主淌若因为轻量化的模子在处理语调、重音、样貌抒发等方面还有局限性。此外,面前的责罚决策主要针对离线使用场景,关于需要云表奇迹的运用还需要进一步优化。
揣度异日,征询团队以为奇迹导向架构还有很大的优化空间。比如,不错在奇迹层面完结并行处理,进一步栽种系统的反应速率和处理才智。同期,跟着东谈主工智能本领的不休发展,学问精粹本领也会变得愈加高效,这将使得轻量化模子的性能进一步栽种。
这项征询的另一个蹙迫孝顺是为语音合成本领的发展指出了一个新的标的。与面前主流的端到端一体化模子不同,模块化的奇迹架构提供了更大的天真性和可推广性。这种架构不仅卤莽适合不同的硬件要求和运用场景,还卤莽证据需要添加新的功能模块,而不需要重新锤真金不怕火统统这个词系统。
关于普通用户来说,这项征询的后果可能会在不久的将来体当今各式语音本领家具中。不管是手机上的语音助手,如故智能音箱的对话功能,齐有可能因为这种本领而变得愈加天然和准确。格外是关于使用非英语语言的用户,这种针对复杂语言特点的优化本领将权贵改善他们的使用体验。
说到底,这项征询责罚了语音合成本领中一个永恒存在的穷苦:如安在保说明时性能的同期提供高质地的语音输出。通过深重的系统架构想象和轻量化的算法优化,征询团队成效地诠释了鱼和熊掌是不错兼得的。这不仅为面前的语音合成运用提供了实用的责罚决策,也为异日愈加智能化的东谈主机语音交互奠定了基础。
跟着东谈主工智能本领的普及,语音交互正在成为东谈主机调换的蹙迫形态。这项征询的价值在于,它让机器不仅卤莽"谈话",而况卤莽"说好话",这关于开发一个愈加包容和无遮拦的数字寰宇具有蹙迫意旨。
Q&A
Q1:什么是奇迹导向架构,它怎么责罚语音合成的速率问题?
A:奇迹导向架构就像开餐厅时把不同工序分给不同厨师站一样,把语音合成系统中的复杂功能模块颓落出来单独开动,而中枢引擎保握轻量化。这么复杂模块在后台颓落职责,不会株连统统这个词系统的反应速率,完结了既快又准的语音合成。
Q2:波斯语中的同形异音词和伊扎菲音书题具体是什么?
A:同形异音词就像英文中的"read",团结个词在不同语境中发音不同,机器不睬解高下文就会读错。伊扎菲音是波斯语私有的链接音/e/,访佛汉文的"的"字,加错位置整句话道理就变了。这两个问题让机器很难准确发音。
Q3:这项本领对普通用户有什么本色公正?
A:最径直的公正是语音助手、屏幕阅读器等斥地茶话会更天然准确,格外对视障东谈主士匡助很大。异日手机语音助手、智能音箱、有声读物等家具齐可能因此本领变得更好用,尤其长短英语语言的用户体验会权贵改善。
