阶跃星辰开源全球首个LLM架构音频编辑模型Step-Audio-EditX，语音编辑进入自然语言指令时代

AI产品动态5个月前发布 AI视野

国内AI语音技术领域迎来重大突破。阶跃星辰（StepStepFun AI）于2025年11月6日正式开源其最新研发的Step-Audio-EditX模型，这是全球首个基于大语言模型（LLM）架构的开源音频编辑工具，标志着语音编辑进入”自然语言指令驱动”的新阶段。

该模型采用30亿参数规模，通过创新的模型压缩技术，在保持高性能的同时显著降低部署门槛。技术报告显示，其核心创新在于”双码本音频分词器”设计，通过并行处理语言码本和语义码本，实现对情感、韵律等副语言特征的细粒度控制。相比前代130亿参数版本，新模型在单卡8GB显存环境下即可运行，多GPU配置下音质表现更优。

实际应用中，用户可通过自然语言指令实现多种编辑功能。例如输入”将语气调整为东北喜剧腔调”或”在结尾添加3秒羞涩笑声”，模型能精准调控音色、情感及节奏参数。测试表明，其方言表现力评分较同类产品高出17%，情感传递准确率达93.7%，在Minimax、Doubao等闭源方案的横向对比中全面领先。

研发团队特别强调了两项关键技术突破：一是”大边距合成数据”方法，通过生成情感风格差异显著的对比样本提升训练效率；二是”两阶段后训练策略”，结合监督微调和强化学习优化模型稳定性。这些创新使模型在零样本语音克隆任务中，仅需10秒参考音频即可高精度复现目标音色。

目前项目已在GitHub开源完整代码、基准数据集及模型权重，同时提供Gradio演示界面和Hugging Face Space。行业分析认为，该技术将显著降低播客制作、有声书配音等场景的创作门槛，推动音频内容生产进入”可迭代编辑”的新纪元。

文章版权归作者所有，未经允许请勿转载。

阶跃星辰开源全球首个LLM架构音频编辑模型Step-Audio-EditX，语音编辑进入自然语言指令时代

苹果自研万亿参数AI大模型曝光，计划2026年取代谷歌Gemini

美团发布AI编程助手CatPaw公测版，自研LongCat模型实现智能代码生成

相关文章

浙江大学“白犀”机器人以16.33秒刷新四足机器人百米世界纪录

快手开源Keye-VL-1.5多模态大模型：80亿参数支持128k上下文，视频理解能力行业领先

灵初智能发布全球首个Psi-SynEngine具身数采方案，突破真实世界操作数据规模化采集瓶颈

Anthropic发布Claude重大更新：AI助手可直接创建编辑Excel、Word及PDF文件

最新资讯

热门AI工具

热门资讯