从大脑生成的合成语音录音

从大脑生成的合成语音录音
插图电极植入的研究参与者的神经语言中心,活动模式记录在演讲(彩色点)被翻译成计算机模拟参与者的声道(模型,对吧),然后可以合成重建的句子说(声波和句子,下文)。信贷:Chang实验室/ UCSF神经外科

最先进的脑机接口由旧金山加州大学神经科学家可以通过使用大脑活动产生自然合成语音控制虚拟声音tract-an解剖学上详细的计算机仿真包括嘴唇、下巴,舌头和喉咙。这项研究是在研究参与者进行完整的演讲,但这项技术有一天恢复人的声音失去了说话的能力由于麻痹和其他形式的神经损伤。

中风,,如帕金森病、多发性硬化症和肌萎缩性脊髓侧索硬化症(ALS或卢伽雷氏症)常常导致不可逆转的丧失说话的能力。一些患有严重的语言障碍学会拼出他们的思想letter-by-letter使用辅助设备,跟踪非常小的眼睛或面部肌肉运动。然而,文本或语音合成与生产这样的设备是费力,容易出错,缓慢,通常允许最多十个字每分钟,相比自然演讲的每分钟100 - 150个单词。

新系统开发实验室的Edward Chang MD-described 4月24日,2019年自然无奇不有,可以创建一个合成的版本可以控制一个人的声音,他们的活动演讲的中心。在未来,这种方法不仅可以恢复流利的沟通对个人有严重残疾的演讲中,作者说,但也可以复制一些乐感的人的声音来传达说话者的情感和性格。

“这项研究首次表明,我们可以生成完整的口语句子根据个人的大脑活动,”Chang说,加州大学旧金山分校的神经外科和成员教授威尔神经科学研究所。“这是一个令人振奋的原理与技术,证明已经触手可及,我们应该能够建立一个设备,是临床可行的失语患者。”

简短的动画演示了如何从大脑的大脑活动模式在躯体感觉皮质的演讲中心(左上)首次解码成一个计算机模拟的研究参与者的声道运动(右上角),然后转化为合成版本的参与者的声音(底部)。信贷:Chang实验室/ UCSF神经外科。模拟声道动画信贷:演讲图形

虚拟声道改善自然语音合成

这项研究是由吉Anumanchipalli博士,科学家的一次演讲中,和乔什·查特生物工程研究生在Chang实验室,它建立在一个最近的研究在两人第一次描述了人类大脑是如何的演讲中心的动作编排的嘴唇,下巴,舌头,和其他声道组件产生流利的演讲。

来自工作、Anumanchipalli和查特意识到先前试图直接从大脑活动解码语音可能会见了有限的成功,因为这些大脑区域并不直接代表语音的声学性质,而是协调运动所需的指令演讲期间口腔和咽喉。

“声道的运动之间的关系和生产是一个复杂的语音,“Anumanchipalli说。“我们认为,如果这些演讲中心在大脑中编码的运动而不是声音,我们应该试着做同样的解码这些信号。”

从大脑生成的合成语音录音
插图电极植入的研究参与者的神经语言中心,活动模式记录在演讲(彩色点)被翻译成计算机模拟参与者的声道(模型,对吧),然后可以合成重建的句子说(声波和句子,下文)。信贷:Chang实验室/ UCSF神经外科

在新的研究中,Anumancipali Chartier问五个志愿者在加州大学旧金山分校接受治疗癫痫Center-patients完整演讲曾暂时电极植入大脑中映射的源发作在准备neurosurgery-to朗读几百句,研究者记录活动的大脑区域参与语言生产。

基于参与者的录音的声音,研究人员使用语言原则逆向声道运动需要生产这些声音:按这里的双唇,收紧声带,舌尖转移到嘴的屋顶,然后放松,等等。

这声音解剖学的详细映射允许科学家们为每个参与者创建一个逼真的虚拟声道可以控制他们的大脑活动。这个由两个““机器学习算法:一种译码器将大脑活动模式过程中产生语音声道虚拟的运动,和一个合成器,这些声道运动转换成合成近似的参与者的声音。

这些算法产生的合成语音明显比直接合成语音解码从参与者的大脑活动不包含模拟扬声器的声音,研究人员发现。的算法产生的句子理解数百人的听众在众包转录亚马逊土耳其机器人平台上进行测试。

从大脑生成的合成语音录音
形象的一个例子的颅内电极阵列类型用于记录大脑活动在当前的研究中。信贷:加州大学旧金山分校

与自然语言一样,誊写更为成功,当他们得到短一大堆单词可供选择,就会有照顾者准备的各种短语或请求病人可能完全。誊写准确地确定69%的合成字列表25替代用完美的准确性和转录43%的句子。与一个更有挑战性的50个字可供选择,誊写的整体精度下降到47%,尽管他们仍然能够理解句子完全合成的21%。

“我们仍然还有很长的路要走,完全模仿口语,“查特承认。“我们很擅长合成慢“sh”和“z”以及维护语言的节奏和音调和说话者的性别和身份,但一些更突然的听起来像“b和“p有点模糊。不过,我们生产的精度水平将是一个了不起的进步在实时通信相比,现有的。”

人工智能、语言学、神经科学推动进步

研究人员目前正在尝试高密度电极阵列和更先进的机器学习算法,希望能进一步提高合成语音。技术的下一个重大考验是确定不会说的人是否可以学习使用系统不能够训练自己的声音,把它推广到任何他们想说。

从大脑生成的合成语音录音
形象的一个例子的颅内电极阵列类型用于记录大脑活动在当前的研究中。信贷:加州大学旧金山分校

从一个团队的研究参与者的初步结果表明,研究人员基于解剖学上的系统可以解码和合成新颖的句子从参与者的大脑活动几乎以及句子的训练算法。即使研究人员提供了算法数据记录在一个参与者只是嘴句子没有声音,系统仍能产生理解合成版本的动作的句子在演讲者的声音。

研究人员还发现,声音动作部分重叠的神经代码在参与者,这一研究课题的声道模拟可以适应应对从另一个参与者的大脑神经指令记录。在一起,这些发现表明,个人演讲损失神经损伤可以学会控制假肢的一次演讲中模仿人的声音完整的演讲。

“人不能把胳膊和腿已经学会用大脑控制机械臂,“查特说。“我们希望有一天的人残疾能够学会说再次使用这个人脑控制人工声道。“

Anumanchipalli补充道:“我很自豪,我们已经能够汇集来自神经科学专家,语言学,和机器学习作为重要里程碑的一部分帮助残疾患者神经。”

更多信息:语音合成神经解码的口语句子,自然,2019年。DOI: 10.1038 / s41586 - 019 - 1119 - 1,
www.nature.com/articles/s41586 - 019 - 1119 - 1

期刊信息: 自然

引用:从大脑生成的合成语音录音(2019年4月24日)2023年5月19日从//www.puressens.com/news/2019-04-synthetic-speech-brain.html检索
本文档版权。除了任何公平交易私人学习或研究的目的,没有书面许可,不得部分复制。内容只提供信息的目的。

进一步探索

研究显示大脑活动模式基本流利的演讲

2535年股票

反馈给编辑