阶跃星辰开源全球首个LLM架构音频编辑模型Step-Audio-EditX,语音编辑进入自然语言指令时代

国内AI语音技术领域迎来重大突破。阶跃星辰(StepStepFun AI)于2025年11月6日正式开源其最新研发的Step-Audio-EditX模型,这是全球首个基于大语言模型(LLM)架构的开源音频编辑工具,标志着语音编辑进入”自然语言指令驱动”的新阶段。

该模型采用30亿参数规模,通过创新的模型压缩技术,在保持高性能的同时显著降低部署门槛。技术报告显示,其核心创新在于”双码本音频分词器”设计,通过并行处理语言码本和语义码本,实现对情感、韵律等副语言特征的细粒度控制。相比前代130亿参数版本,新模型在单卡8GB显存环境下即可运行,多GPU配置下音质表现更优。

实际应用中,用户可通过自然语言指令实现多种编辑功能。例如输入”将语气调整为东北喜剧腔调”或”在结尾添加3秒羞涩笑声”,模型能精准调控音色、情感及节奏参数。测试表明,其方言表现力评分较同类产品高出17%,情感传递准确率达93.7%,在Minimax、Doubao等闭源方案的横向对比中全面领先。

研发团队特别强调了两项关键技术突破:一是”大边距合成数据”方法,通过生成情感风格差异显著的对比样本提升训练效率;二是”两阶段后训练策略”,结合监督微调和强化学习优化模型稳定性。这些创新使模型在零样本语音克隆任务中,仅需10秒参考音频即可高精度复现目标音色。

目前项目已在GitHub开源完整代码、基准数据集及模型权重,同时提供Gradio演示界面和Hugging Face Space。行业分析认为,该技术将显著降低播客制作、有声书配音等场景的创作门槛,推动音频内容生产进入”可迭代编辑”的新纪元。

© 版权声明

相关文章