音乐ChatGPT时刻来临，「天工SkyMusic」音乐大模型今日启动邀测

4月02日，星期二

2024-04-02 10:14

4月2日，昆仑万维AI音乐生成大模型「天工SkyMusic」即日起面向社会开启免费邀测。

本轮邀测将开放1000个免费名额，面向行业媒体、专家、以及感兴趣的音乐从业者开放，用户可扫描文后二维码或通过网页填写申请，收到申请表后工作人员将第一时间联络回复。「天工SkyMusic」正式版也将在4月17日随「天工3.0」面向全社会免费开放。

申请网页：https://rg975ojk5z.feishu.cn/share/base/form/shrcnTcBRpGzv5Sx9xAGd5V97Md

「天工SkyMusic」基于昆仑万维「天工3.0」超级大模型打造，是目前国内唯一公开可用的AI音乐生成大模型。

在通往 AGI 的道路上，多数团队都专注于模型智力的扩展和增强，几乎没有人关注AI如何帮助人们理解和更好地表达情感。智力固然重要，但情感是我们能够被称之为人的关键，于是，情感 AGI 成为昆仑天工探索研究的一个重要方向。

我们发现相比文本和图片，音频内容是理解人类情感最好的方式，而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体，不论时代变幻，不论是战争还是灾祸，人们总是能通过音乐传递自己的感受并获得情感的慰藉。于是我们创造了音乐音频大模型「天工SkyMusic」，并在公司内部测试中已经获得了非常好的反馈和表现，很高兴跟大家宣布：即日起天工音乐开放媒体与行业专家内测，来体验人声情感表达 SOTA 的音乐大模型产品。

「天工SkyMusic」采用音乐音频领域类Sora模型架构，Large-scale Transformer 负责谱曲，来学习 Music Patches 的上下文依赖关系，同时完成音乐可控性；Diffusion Transformer 负责演唱，通过LDM让Music Patches被还原成高质量音频，使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队也将在后续逐步迭代和添加新的能力，让模型具备多模态的情感理解与表达能力。

「天工SkyMusic」具有以下五大特点：

1. 高质量AI音乐，「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲，并可根据用户输入的歌词风格生成对应歌曲风格。

2. 人声“以假乱真”，人声合成是AI音乐生成中最重要、最能体现生成效果和品质的维度。「天工SkyMusic」的AI人声合成能够达到业内顶尖的SOTA水平，中文水平极为优秀，发音清晰、无异响。其中文演唱效果更是显著好于国外产品，领先世界水平。

3. 歌词段落控制，「天工SkyMusic」能够通过歌词来控制歌曲，让生成的歌曲可以明确分辨出不同歌词段落的情绪变化，体现出主歌和副歌、前奏和主歌的段落差异。

4. 多种音乐风格，「天工SkyMusic」支持说唱、民谣、放克、古风、电子等多种音乐风格，用户在创作音乐时，可以通过参考音频制定想要的音乐风格。

5. 音乐智能表达- 歌唱技巧学习，「天工SkyMusic」同时能够学习如颤音、歌剧、吟唱、男女对唱，自动和声等多种歌唱技巧，让用户创作的歌曲得到更恰当的情感表达。

[展开]