G
音频与3D
9 分钟阅读更新于 2026-05-25

AI 音乐生成提示词与风格库

系统拆解 AI 音乐生成提示词的四层结构,配 12 类场景风格库与商用红线。
AI音乐
提示词工程
Suno
Udio
内容创作

# AI 音乐生成提示词与风格库

AI 音乐生成已经从"听个新鲜"演变成内容创作者日常工具链的一部分。Suno V4、Udio、Stable Audio 2.0、ElevenLabs Music 这一批模型,已经能在 30 秒到 4 分钟之间,输出可商用、可二次混音的成品级音乐。但同样输入"一首流行歌",有人产出抖音爆款,有人却得到一段廉价的电子和弦——差距几乎全在提示词。

这篇文章给你一套可直接复用的提示词框架、参数表与风格库,覆盖短视频配乐、品牌广告、播客片头、游戏 BGM 等高频场景。

提示词的四层结构

主流 AI 音乐模型对提示词的解析,几乎都遵循"风格-情绪-乐器-结构"四层模型。把这四层写清楚,效果稳定性会从 30% 提升到 80% 以上。

第一层是风格标签(Genre)。这是最强的语义锚点,必须放在提示词最前。例如 lo-fi hip hopsynthwaveorchestral cinematicUK garagecity pop。模型对风格名的训练样本最密集,写得越具体越好——90s boom bap hip hop 就比 hip hop 精确得多。

第二层是情绪与氛围(Mood)。常用词包括 melancholicupliftingtensedreamygrittynostalgic。注意中英文混写的效果普遍不如纯英文,Suno 和 Udio 的训练语料以英文为主。

第三层是乐器与声音设计(Instrumentation)。指明主奏乐器、节奏乐器、空间感。比如 warm Rhodes piano lead, dusty drum break, upright bass, vinyl crackle。这一层是区分"AI 味"和"人味"的关键——越具体的乐器组合,越不像模板。

第四层是结构与节奏(Structure & Tempo)。包括 BPM、调性、段落安排。90 BPM, A minor, intro-verse-chorus-bridge-outro 是一个标准写法。Suno V4 已经能识别 [Verse][Chorus][Drop] 这类结构标记,对长曲控制非常有用。

一个可直接套用的万能模板

把上面四层组合,得到这个万能模板:

``

[Genre/Subgenre], [Mood], [Key Instruments + Sound Design],

[BPM] BPM, [Key], [Structure markers if needed]

`

举个例子,做一个咖啡店 vlog 的开场配乐:

`

Lo-fi hip hop with jazz influence, calm and nostalgic,

warm Rhodes piano, soft brushed drums, upright bass,

subtle vinyl crackle, 75 BPM, F major,

[Intro] mellow piano alone, [Verse] full beat enters

`

再做一个产品发布会的高能开场:

`

Cinematic epic trailer, rising tension to triumphant release,

deep brass swells, taiko drums, staccato strings, choir hits,

sub-bass impacts, 130 BPM, D minor,

[Build] 0-20s riser, [Drop] 20-40s full ensemble

`

这两段都能在 Suno V4、Udio 上稳定产出可用结果,差异在于风格库的精度。

12 类高频场景的风格速查表

下面是一份按业务场景整理的风格库,每条都给出可直接复制的提示词片段。

短视频/抖音爆款viral pop, punchy 808 bass, vocal chops, sidechained synth, sparkly hi-hats, 128 BPM。这个组合在抖音、TikTok 算法里完播率最高。

Vlog 旅行indie folk, acoustic guitar fingerpicking, glockenspiel, soft male hum, wide reverb, 95 BPM, C major。情绪温和,画面让位给音乐。

美食探店bossa nova lounge, nylon guitar, brushed snare, mellow flute, walking bass, 110 BPM。轻快但不抢戏。

科技产品演示minimal techno, clean four-on-the-floor kick, analog pluck synths, white noise riser, 124 BPM, A minor。冷静、未来感、不抢镜。

汽车/运动品牌广告big room electronic rock, driving distorted guitar, pulsing synth bass, cinematic drums, 140 BPM, E minor。能量充沛。

奢侈品/时尚dark sensual house, deep house bass, filtered vocal sample, jazzy piano stabs, 122 BPM。质感和留白同样重要。

儿童/教育内容playful ukulele pop, marimba, whistling melody, hand claps, light shaker, 100 BPM, G major。明亮但不吵闹。

游戏 BGM 探索fantasy orchestral exploration, harp arpeggios, woodwind solos, distant horns, light percussion, 80 BPM。可循环、低疲劳。

游戏 BGM 战斗hybrid orchestral action, aggressive strings ostinato, taiko ensemble, electric guitar power chords, brass blasts, 150 BPM。张力明确。

播客片头upbeat lo-fi indie, claps, simple piano riff, warm bass, 105 BPM, 15-second hook。短而记忆点强。

冥想/睡眠ambient drone, soft pad layers, binaural-style stereo field, no percussion, 60 BPM, slow evolving。无打击乐是关键。

ASMR/专注neoclassical piano with rain ambience, felt piano, light strings, distant thunder, 65 BPM, D-flat major

模型差异与参数选择

不同模型的"提示词性格"差异很明显,选错模型再好的提示词也救不回来。

Suno V4 强项是带人声的完整歌曲,对中文歌词支持稳定,结构标记 [Verse][Chorus][Bridge] 解析最准。弱项是纯器乐和电影配乐的层次感。适合做:广告主题曲、短视频带词版本、品牌歌曲。

Udio 在器乐质感、混音空间和乐器演奏细节上更接近真人录音,extend、inpainting 功能成熟。适合做:影视片段配乐、有声书背景、需要后期混音的项目。

Stable Audio 2.0 没有人声,但纯器乐和音效设计极强,可以一次产出最长 3 分钟无缝循环。适合做:游戏 BGM、播客 jingle、音效素材库。

ElevenLabs Music 最新发布,强项是与该公司 TTS 工具链整合,做有声内容时配音和配乐可以同节奏渲染。

参数上有几条经验值:BPM 在大多数流行场景落在 90-128 之间,电子舞曲 124-140,电影配乐 60-150 跨度更大。调性优先选 minor(小调)做严肃、深沉、张力内容,major(大调)做明亮、轻快、温暖内容。曲长方面,社交视频片头 15 秒、产品广告 30 秒、片尾完整版 60-90 秒,是目前商用最高频的三档。

实战案例:做一支抖音爆款 BGM

下面把整个流程跑一遍。需求:给一支美妆短视频做 30 秒 BGM,目标是开头 3 秒钩子强、12 秒处情绪转折。

第一版提示词:

`

Glittery hyperpop, euphoric and confident,

chopped vocal samples, supersaw lead,

heavy 808 bass, fast hi-hats, sidechained pads,

135 BPM, F# minor,

[Hook 0-3s] vocal chop drop,

[Build 3-12s] rising synth and snare roll,

[Drop 12-30s] full energy chorus

`

跑出来如果觉得"AI 味"太重,加两个细节:subtle tape saturation(让顶部不刺耳)、live drum fills before drop(让段落转换更自然)。

如果客户反馈"太满",把 heavy 808 换成 controlled 808,把 fast hi-hats 换成 syncopated hi-hats with rests,留出呼吸感。

这种"先打主框架、再加 2-3 个修饰词"的迭代节奏,比一次写满 50 个标签效率高得多。

商用与版权注意事项

到 2026 年,主流 AI 音乐平台的商用授权条款已经趋同,但仍有几个红线必须避开。

不要在提示词里写真实艺人名字。in the style of Taylor Swift 这种写法在 Suno 等平台已被识别拦截,且即便生成成功,商用也会构成风险。改用风格描述:female pop vocal in the style of late-2020s synthpop

不要直接 reference 知名 IP 的旋律。AI 模型可能从训练数据中重现片段,作为创作者你需要自己做一遍 melody 检查,可以用 AudioTag、Shazam 反查输出片段,避免命中已有作品。

订阅版权要看清。Suno Pro、Udio Standard 都允许付费用户保留商用权利,但部分免费档生成的作品仅限个人使用。在给客户交付前,确认账号档位和具体输出文件的授权状态。

提示词资产管理

如果你在团队里做内容生产,把提示词当代码管理,回报会非常高。建议至少做三件事:

按场景建立提示词库,命名规范化(如 vlog/travel/morning-coffee.txt),每条记录最终生成 ID、模型版本、客户反馈。三个月后回看,能清晰看出哪些模板复用率高。

每次成功生成后,把"种子提示词 + 微调路径 + 最终成品"打包归档。同一支客户的下一轮需求,可以直接 fork 上一支的种子,迭代速度翻倍。

把"反向提示词"也记录下来。比如某个客户明确不要 dubstep wobbleautotuned vocals,下次生成时直接在提示词末尾加 --no dubstep, no autotune(部分模型支持),或在描述中写 clean vocals without autotune`。

写在最后

AI 音乐生成不是"输入心情、输出神曲"的魔法。它是一套需要刻意练习的语言能力——你越能用专业制作人的词汇精准描述声音,模型就越能给你专业制作人级别的输出。

把这篇里的模板和风格库放进你的工具栏,跑 20-30 个真实项目,你的提示词肌肉记忆会自然形成。到那时候,"用 AI 做音乐"对你来说就和写 prompt 调 ChatGPT 一样自然。