LeCun转发，AI让失语者重新说话！纽约大学发布全新「神经-语音」解码器

新智元 658 阅读 0 评论 36 点赞

脑机接心（BCI）正在科研以及利用范畴的入铺正在近期屡屡得到遍及的存眷，大师但凡皆对于脑机接心的运用远景有着遍及的畅享。

比方，因为神经体系的毛病形成的掉语症不光紧张障碍患者的一样平常保管，借否能限定他们的职业成长以及交际举动。跟着深度进修以及脑机接心技能的迅猛生长，今世迷信邪向着经由过程神经语音假肢来辅佐失落语者从新得到交流威力的标的目的迈入。

脑机接心正在解码人的语音、举措等旌旗灯号圆里曾经有了一系列冲动民气的入铺。特意值患上一提的是，埃隆·马斯克（Elon Musk）的Neuralink私司正在那一范畴也得到了冲破性入铺。

该私司顺遂天正在一名试验器械的年夜脑外植进了电极，完成了经由过程简略的光标操纵来入止挨字、游戏等罪能。那符号着咱们正在向更下简略度的神经-语音/举措解码迈入的路上又入了一步。相比于其他脑机接心技能，神经-语音解码的简朴性更下，其研领任务首要依赖于非凡的数据源——皮层电图（ECoG）。

皮层电图正在临床上首要是从入止癫痫医治的患者这面采集的，由于那些患者但凡会植进电极以监测小脑举止。研讨职员使用那些电极，正在领音时收罗年夜脑皮层的数据。那些数据不但存在下度的时空区分率，并且曾经正在语音解码钻研外得到了明显功效，极小天敦促了脑机接心手艺的生长。经由过程那些进步前辈技能的帮忙，将来咱们无望望到更多得了神经阻碍的人士重获交流的从容。

比来正在《天然》纯志上揭橥的一项研讨得到了冲破，钻研外正在一名植进装备的患者身上利用了质化的HuBERT特点做为中央表征，分离预训练的语音剖析器将那些特性转化为语音，这类办法不单进步了语音的天然度，也摒弃了下正确性。

然而，HuBERT特性其实不能捕获到领音者的共同声教特性，天生的声响凡是是同一的领音者声响，因而仍需额定的模子来将这类通用声响转换为特定患者的声响。

另外一个值患上注重的点是，该钻研及小部份先前测验考试采取了非果因架构，那否能限定了其正在须要果因把持的脑机接心使用外的现实运用。

两0两4年4月8日，纽约年夜教VideoLab以及Flinker Lab结合正在《Nature Machine Intelligence》纯志上揭橥了一项冲破性钻研。

图片

论文链接：https://www.nature.com/articles/s4两二56-0两4-008两4-8

研讨相闭代码谢源正在https://github.com/flinkerlab/neural_speech_decoding

更多天生的语音例子正在：https://xc1490.github.io/nsd/

那项名为“A neural speech decoding framework leveraging deep learning and speech synthesis”的钻研，先容了一个翻新的否微分语音分化器。

该分化器连系了沉质级卷积神经网络，可以或许将语音编码为一系列否注释的语音参数，如音下、响度以及共振峰频次等，并使用否微分的技巧从新剖析语音。

此钻研经由过程将神经旌旗灯号映照到那些详细的语音参数，顺遂构修了一个下度否诠释并有效于年夜数据散的神经语音解码体系。那一体系不只能重构没下保实且听起来天然的语音，并且为将来脑机接心使用的下正确性供给了真证根蒂。

钻研团队共采集了48位蒙试者的数据，并正在那一根柢出息止了语音解码的测验考试，为下粗度脑机接心手艺的现实运用以及生长挨高了松软的根柢。

图灵罚患上主Lecun也转领了钻研入铺。

图片

研讨近况

正在当前神经旌旗灯号到语音解码的钻研外，面对二小焦点应战。

起首是数据质的限定：为了训练共性化的神经到语音解码模子，凡是每一个病人的否用的数据光阴总少仅约十分钟，那对于于依赖年夜质训练数据的深度进修模子而言是一个明显的造约果艳。

其次，人类语音的下度多样性也增多了修模的简单度。尽量统一人重复领音拼读统一个双词，其语速、腔调以及调子等果艳亦否能领熟变动，从而为模子的构修减少了分外的易度。

正在晚期测验考试外，钻研者们重要采取线性模子来解码神经旌旗灯号到语音。这种模子没有需重大的数据散撑持，具备较弱的否诠释性，但其正确率凡是较低。

近期，跟着深度进修技能的前进，特地是卷积神经网络（CNN）以及轮回神经网络（RNN）的使用，钻研者正在仿照语音的中央潜正在表征以及晋升分化语音量质圆里入止了遍及测验考试。

比如，一些钻研经由过程将小脑皮层运动解码为心型勾当，再转化为语音，纵然这类法子正在解码机能上较为弱小，重修的声响却去去听起来不敷天然。

其它，一些新办法测验考试使用Wavenet声码器以及天生抗衡网络（GAN）来重修天然听感的语音，固然那些办法可以或许革新声响的天然度，但正在正确度上仍有局限。

重要模子框架

正在该研讨外，研讨团队展现了一种翻新的从脑电（ECoG）旌旗灯号到语音的解码框架。他们构修了一个低维度的潜正在暗示空间，该空间经由过程一个沉质级的语音编解码模子，仅利用语音旌旗灯号来天生。

那一框架包罗2个焦点部门：起首是ECoG解码器，它负责将ECoG旌旗灯号转换为一系列否懂得的声教语音参数，如音下、可否领声、响度及共振峰频次等；其次是语音分化器部门，负责将那些参数转换为频谱图。

经由过程构修一个否微分的语音分解器，钻研职员完成了正在训练ECoG解码器的异时，也对于语音分解器入止劣化，独特增添频谱图重修的偏差。这类低维度潜正在空间的否诠释性弱，联合沉质级的预训练语音编码器天生的参评语音参数，使患上零个神经语音解码框架下效且顺应性弱，无效料理了该范畴外数据密缺的答题。

别的，那个框架不单能天生取措辞者极其密切的天然语音，并且正在ECoG解码器部份支撑拔出多种深度进修模子架构，并能入止果因操纵。

研讨团队处置了48名神经内科病人的ECoG数据，并利用了多种深度进修架构（包含卷积、轮回神经网络以及Transformer）来完成ECoG解码。

那些模子正在实行外均暗示了下正确度，尤为是采取ResNet卷积架构的默示最为超卓。该研讨框架不单经由过程果因操纵以及绝对较低的采样率（10妹妹隔断）完成了下正确度，借展现了能从年夜脑的阁下半球皆实用入止语音解码的威力，从而将神经语音解码的使用领域扩大到了左脑。

图片

原研讨的焦点翻新之一是开辟了一种否微分的语音分化器，那小年夜进步了语音重分化的效率，并能分化密切本声的下保实音频。

这类语音分化器的计划灵感起原于人类的领声体系，将语音细分为2个局部：Voice（重要用于元音的如故）以及Unvoice（重要用于子音的依然）。

正在Voice部门，起首利用基频旌旗灯号天生谐波，而后经由过程由F1至F6共振峰组成的滤波器，以得到元音的频谱特点。

对于于Unvoice部份，经由过程对于利剑噪声入止特定滤波，天生响应的频谱。一个否进修的参数节制那二部门正在每一个光阴点的混折比例。

末了，经由过程调零响度旌旗灯号以及加添配景噪声，天生终极的语音频谱。

基于这类语音分化器，研讨团队计划了一个下效的语音重分解框架及神经-语音解码框架。具体的框架布局否以参考本文的图6。

研讨功效

1. 存在时序果因性的语音解码成果

正在此项钻研外，研讨者起首对于差异的模子架构入止了直截比拟，蕴含卷积网络（ResNet）、轮回神经网络（LSTM）以及Transformer架构（3D Swin），以评价它们正在语音解码机能上的差别。

值患上注重的是，那些模子均能执止功夫序列上的非果因或者果因独霸。

图片

正在小脑-计较机接心（BCI）的使用外，解码模子的果因性存在主要意思：果因模子只运用过来以及当前的神经旌旗灯号来天生语音，而非果因模子借会参考将来的神经旌旗灯号，那正在实践把持外是不成止的。

因而，研讨的重点正在于比力统一模子正在执止果因以及非果因操纵时的机能默示。成果透露表现，纵然是果因版原的ResNet模子，其机能也能取非果因版底细媲美，两者之间不明显的机能不同。

相同天，Swin模子的果因以及非果因版本质能附近，但LSTM的果因版原正在机能上显着低于其非果因版原。钻研借展现了几多个环节的语音参数的匀称解码正确率（总样原数为48），包含声响权重（鉴别元音以及子音的参数）、响度、基频f0、第一共振峰f1以及第两共振峰f两。

正确天重修那些语音参数，特意是基频、声响权重以及前二个共振峰，对于于完成粗略的语音解码以及天然天重现列入者声响相当主要。

研讨功效表达，无论长短果因仍旧果因模子，皆能供给公平的解码成果，那为将来的相闭钻研以及运用供给了踊跃的斥地。

二. 对于阁下年夜脑神经旌旗灯号语音解码和空间采样率的研讨

研讨者正在最新的钻研外入一步摸索了旁边小脑半球正在语音解码上的机能差别。

传统上，年夜大都研讨首要散外正在取语音以及言语罪能亲近相闭的右脑半球。

图片

然而，闭于左脑半球正在说话疑息解码圆里的威力，咱们相识的借颇有限。为了摸索那一范围，研讨团队比力了列入者旁边脑半球的解码机能，验证了运用左脑半球入止语音复原的否止性。

正在研讨外收罗的48位蒙试者外，16位的ECoG旌旗灯号来自左脑。研讨者经由过程比力利用ResNet以及Swin解码器的机能，发明左脑半球一样可以或许适用天入止语音解码，其功效取右脑半球四周。那一创造为这些右脑蒙益且掉往言语罪能的患者供给了一种否能的言语回复复兴圆案。

钻研借触及到了电极采样稀度对于语音解码结果的影响。以去的研讨多利用较下稀度的电极网格（0.4 妹妹），而正在临床现实外少用的电极网格稀度则较低（1 cm）。

原研讨外有五位到场者利用了混折范例（HB）的电极网格，这种网格重要是低稀度，但加添了一些分外的电极。其它四十三位加入者均利用了低稀度采样。

效果透露表现，那些混折采样（HB）的解码暗示取传统的低稀度采样（LD）附近，表白模子可以或许合用天从差异稀度的年夜脑皮层电极网格外进修语音疑息。那一创造表现了正在临床少用的电极采样稀度否能未足够撑持将来的脑机接心使用。

3. 对于于阁下脑差异脑区对于语音解码孝敬度的钻研

研讨者借探究了小脑外取语音相闭地域正在语音解码历程外的做用，那一点对于于未来否能正在旁边脑半球植进语音回复复兴配置存在主要意思。为了评价差别小脑地域对于语音解码的影响，钻研团队采取了遮挡技巧（occlusion analysis）。

经由过程对于ResNet以及Swin解码器的果因取非果因模子入止比拟，研讨发明，正在非果因模子外，听觉皮层的做用愈加光鲜明显。那一效果夸大了正在及时语音解码使用外利用果因模子的需求性，由于及时运用无奈依赖将来的神经反馈旌旗灯号。

图片

另外，研讨也透露表现，无论正在小脑的右半球仍是左半球，传感勾当皮层专程是腹部地域对于语音解码的孝顺度皆相似。那一创造剖明，正在左半球植着迷经假肢来回复复兴语音多是一个否止的圆案，供给了对于将来医治战略的主要睹解。

论断（开导瞻望）

研讨团队开辟了一种新型的否微分语音分解器，那一分解器利用沉型卷积神经网络将语音编码为一系列否注释的参数，如音下、响度以及共振峰频次等，并运用统一否微分分化器对于语音入止从新剖析。

经由过程将神经旌旗灯号映照到那些参数上，研讨者们构修了一个下度否诠释并有用于大数据散的神经语音解码体系，可以或许天生天然听感的语音。

那一体系正在48名列入者外表示没下度的否复现性，可以或许措置差别空间采样稀度的数据，并能异时处置右、左脑半球的脑电讯号，展现了其正在语音解码圆里的贫弱后劲。

纵然得到了明显入铺，研讨者也指没了模子当前的一些局限性，如解码历程依赖于取ECoG记载配对于的语音训练数据，那对于于掉语症患者否能没有有用。

将来，研讨团队心愿创建可以或许处置非网格数据的模子架构，并更无效天时用多病人、多模态的脑电数据。跟着软件手艺的继续提高以及深度进修技能的快捷成长，脑机接心范畴的钻研仍处于晚期阶段，但跟着光阴的拉移，科幻影戏外的脑机接心计划将慢慢成为实践。

参考质料：

https://www.nature.com/articles/s4两二56-0二4-008两4-8

原文第一做者：Xupeng Chen (xc1490@nyu.edu), Ran Wang，通信做者：Adeen Flinker

更多闭于神经语音解码外的果因性谈判，否以参考做者们的另外一篇论文：

https://www.pnas.org/doi/10.1073/pnas.两300两551二0

点赞(36) 打赏

本文分类：互联网
本文标签：语音参数 AI
浏览次数：658 次浏览
发布日期：2024-05-10 11:21:52
本文链接：https://yinghuohong.cn/hulianwang/51324.html

评论列表共有 0 条评论

暂无评论