首页 抖音热门文章正文

阿里推出新语音识别模型:幻觉率显著下降70%,

抖音热门 2025年09月17日 00:55 4 admin
阿里推出新语音识别模型:幻觉率显著下降70%,

9月15日,阿里巴巴通义实验室正式发布了其最新的语音识别大模型——FunAudio-ASR。这款基于深度学习的端到端语音识别系统,经过创新的Context模块优化,成功将“幻觉”现象的发生率从78.5%大幅降低至10.7%。这一显著的改进为语音识别领域带来了新的希望,尤其是在高噪声环境下的信号处理能力得到了强化。

语音识别中的“幻觉”现象与创新解决方案

阿里推出新语音识别模型:幻觉率显著下降70%,

在语音识别技术的发展中,“幻觉”问题是个重要的挑战。与标准文本模型相比,语音模型在信息处理上容易出现不真实的输出,因为声学特征与文本特征在模型中的映射存在天然的差距。阿里研究人员针对这一问题,设计了Context增强模块,将初步解码的结果作为上下文信息输入到大语言模型中,以此来提高语音理解的一致性。

这种创新的解码流程采用CTC(Connectionist Temporal Classification)结构,既轻量又高效,大大减少了额外的推理时间。这种通过提供上下文信息的新策略,使得模型在处理嘈杂背景和多说话场景下的表现得到了显著提升,同时准确识别了多个说话者的声音。

对应市场需求的全面优化

阿里推出新语音识别模型:幻觉率显著下降70%,

通义实验室审视了当前语音识别市场的不足,通过建立多个特定的测试集来针对不同场景进行了全面改进。例如,在视频会议、智能终端和实时字幕等应用环境中,FunAudio-ASR支持低延迟的流式识别和中英文自然切换功能。此外,用户可以自定义热词识别,以提升专业领域词汇的识别准确率。

阿里推出新语音识别模型:幻觉率显著下降70%,

▲声学特征Embedding与真实的文本Embedding分布差异(图片来源:https://arxiv.org/pdf/2410.18908)

FunAudio-ASR的发布有两个版本,其中满血版结合了0.7B参数量的编码器和7B参数量的大语言模型,旨在追求极致的识别精度。而轻量的nano版则由0.2B参数量的编码器与0.6B参数量的大语言模型构成,更加注重效率与准确率的平衡。

深入技术架构与训炼方法

阿里推出新语音识别模型:幻觉率显著下降70%,

在技术层面,FunAudio-ASR具有四个核心组成部分,包括音频编码器、音频适配器、CTC解码器和基于大语言模型的解码器。模型的预训练阶段使用了数千万小时的音频数据,涵盖了多个领域的信息,并进行自监督和有监督学习。

阿里推出新语音识别模型:幻觉率显著下降70%,

研究团队利用自监督预训练加速了模型的收敛,同时在有监督微调阶段,针对各种任务进行优化训练。这使得FunAudio-ASR不仅在常规语音识别任务中表现出色,更在复杂场景下展现了强大的适应能力。

阿里推出新语音识别模型:幻觉率显著下降70%,

▲FunAudio-ASR模型架构

在强化学习阶段,阿里团队设计了专为该模型定制的FunRL框架,支持多模块的高效协同训练,使得模型在长音频和多任务识别能力上得到了显著提升。整个训练过程仅用8张A100显卡在一天内完成,充分展示了该模型的高效性。

展望未来:智能交互的新机遇

随着FunAudio-ASR的推出,阿里巴巴在语音识别领域迈出了重要的一步。该模型不仅大幅降低了幻觉现象的发生率,还为各类应用场景提供了个性化的定制解决方案。阿里云的百炼平台上已经上线了该模型的API,定价为0.00022元每秒。当前在多个应用环境中,包括钉钉“AI听记”、视频会议、DingTalk A1硬件等场景中的应用,为用户带来了更为便捷的体验。

展望未来,基于生成式AI的语音识别技术正在不断发展,潜力巨大。可以预见,随着这些新技术的成熟,语音识别将不仅仅是单一的“输入工具”,而是成为更为智能的交互入口。阿里巴巴的这项新技术,或将推动更广泛、深入的人机交互新时代,让我们期待其在现实生活中的落地与应用。

发表评论

而然网 网站地图 Copyright © 2013-2024 而然网. All Rights Reserved.