当AI为世界级科技盛会谱写主题曲,当普通人输入一段生活故事就能生成完整歌曲,曾经高不可攀的音乐创作,正随着AI技术的突破走进日常。2025年世界人工智能大会上,由上海新锐大模型公司自由量级“音潮”AI音乐大模型创作的英文主题曲《AIForGood》意外出圈——这首无需专业音乐人参与、仅靠“大气欧美风、适配大型科技活动”的文字指令生成的作品,第六版便让所有聆听者达成共识:“这就是我们想要的感觉”。
这家2023年成立的公司,近期凭借全链路自研的“音潮音乐”模型通过国家网信办备案,填补了国内商业级音乐模型的空白。近日,记者专访其CTO兼执行CEO姜涛博士,探寻AI如何重构普通人的音乐生活。
从“拼接玩具”到立体音效
音乐大模型如何“反常识”突破
“早年间做AI音乐,就像用不同零件拼玩具——A模型生成旋律,B模型做人声,C模型搞渲染,每个环节都要损失10%-20%的效果,最后拼出来的音乐‘AI感’很重,连我老婆都觉得‘像机器人在唱歌’。”姜涛的话里带着自嘲,却道出了传统音乐AI的核心困境。这位哈工大硕博出身、曾在2011年开发国内首个听歌识曲APP“音乐雷达”的技术专家,深知音乐生成与文本生成的本质不同:大语言模型拼的是逻辑连贯,而音乐大模型要面对“超长上下文”(一首歌曲含数十万个数据点)与“非线性结构”(旋律、和声、节奏交织影响)的双重挑战,“差一个音的相位,听感就会从‘现场’变成‘收音机’”。
自由量级的破局,始于对“模仿”的颠覆。团队没有走行业常见的“开源模型微调”捷径,而是从底层搭建AR+NAR混合架构——这种设计让模型既能记住整首歌的结构逻辑,又能打磨“吉他泛音时长”“钢琴踏板力度”这类细节。
姜涛记得,去年调试吉他音色时,团队里一位有10年吉他演奏经验的算法工程师,反复对比实录音频和模型生成结果,最后发现“模型少算了0.3秒的延音”,“要是纯技术出身的工程师,可能根本听不出这种差别”。
更关键的突破在“空间感”上。团队自主研发的扩散型变换器模型(DiT),能精准捕捉双声道的相位差与时间延迟,生成的音乐不再是扁平的单声道扩展。“有次测试,我们把生成的歌放给一位录音师听,他问‘你们是找乐队录的吗?贝斯声怎么在左边?’”姜涛笑着说,这种“误以为是实录”的反馈,正是技术突破的最佳证明。
算法工程师组成“乐队”
跨界人才破解核心难题
“音乐大模型最反常识的地方,是它没有客观评分标准——文本对不对看逻辑,图片像不像看像素,可音乐好不好听,得靠‘感觉’。”姜涛坦言,这也是音乐大模型与大语言模型最大的不同,而破解这一难题的关键,正是自由量级“不像技术团队”的团队构成。
记者获悉,目前公司30多人的团队里,13名算法工程师几乎能组成一支完整乐队——钢琴、贝斯、声乐爱好者一应俱全,只差一名鼓手;产品团队更是“科班出身”,有中国音乐学院的作曲专业毕业生,也有星海音乐学院的音乐制作人才。
“以前在大厂带纯技术团队,生成一段旋律后,得专门找音乐人来鉴定‘好不好听’,对方说‘不对’,我们还不知道问题出在哪——是和弦错了?还是编曲打架了?”姜涛对比道,现在算法工程师自己就能判断:有次模型生成的流行乐,负责调参的工程师(同时是业余钢琴手)听了两句就说“旋律和钢琴伴奏的和弦不对,得改模型的乐理规则”,省去了反复沟通的成本。
这种“技术+音乐”的跨界优势,在与上海音乐学院的合作中更显突出。双方联合成立的实验室里,上音学生会帮模型做“审美对齐”标注——不仅拆解乐器、风格等要素,还会写下“这段旋律让我想到雨后的公园”这类主观感受。“有次标注完,上音的学生说‘这段吉他solo太生硬,像在念谱’,我们的算法工程师立刻就懂了,要给模型加‘揉弦’的参数。”姜涛说,这种“同频沟通”,让模型的“审美”提升速度远超预期。
团队里还藏着不少用技术传递情感的温暖故事。2020年在快手时,姜涛为了给妻子准备结婚纪念日礼物,用当时的技术生成了一首情歌,还特意去录音棚录了两小时;后来技术迭代,他又把女儿稚嫩的声音编进旋律里,这首歌成了家里每年都会重温的纪念。现在团队里,常有工程师用模型打磨生活中的仪式感,有人为朋友的创业项目生成主题曲,有人为毕业十年的同学聚会创作合唱曲。正是这种对“用音乐传递情感”的共鸣,让团队更懂普通人的创作需求。
不是替代周杰伦
而是让外卖小哥也能写歌
“有人问我,AI能替代周杰伦吗?我的答案是永远不能。”姜涛的语气很坚定。在他看来,AI目前仍是“概率模型”,能熟练模仿已有的音乐风格,却无法像周杰伦那样打破传统——将中国风与R&B结合,创造出前所未有的曲风,“这种破坏性创新,是人类独有的‘脑洞’”。
但AI的价值,本就不是替代专业音乐人,而是实现“音乐平权”。现在通过“音潮”APP,普通人输入“给妈妈的生日歌,温柔钢琴风”,几分钟就能拿到成品,成本几乎为零;上线两个多月,平台已积累20万注册用户,“以前做一首歌要花几万块、等两三周,只有明星或企业才敢想,现在普通人也能把生活写成歌。”姜涛说。
商业化层面,团队已探索出B端C端双线路径:C端用户创作的歌曲若被他人收听,能获得分成;B端则向电商平台开放曲库API,商家可快速生成适配商品的背景音乐。而在版权保护上,平台会记录用户的创作时间与指令,为作品提供唯一凭证,“目前还没遇到版权纠纷,但未来AI音乐成为主流后,清晰的规则是行业发展的基础”。姜涛坦言。
IIM信息研究院数据显示,2025年全球音乐大模型市场规模预计达187亿美元,中国占比约32%。在腾讯音乐、字节跳动等大厂布局的同时,自由量级这样的初创公司正以“跨界团队”为优势抢占先机。
“我希望未来的音乐生态是去中心化的——你打开音乐APP,听到的不只是明星的歌,还有外卖小哥、教师、学生写的生活故事。”姜涛的愿景,或许正是AI给音乐生活带来的最深刻改变:当创作门槛被打破,每个人都能成为自己生活的“音乐创作者”。
头图为姜涛在2025WAIC现场演讲。受访者供图
可靠股票配资网,配资利息计算公式一览表,网上配资炒股平台提示:文章来自网络,不代表本站观点。