# AI 音乐生成提示词与风格库
AI 音乐生成已经从"听个新鲜"演变成内容创作者日常工具链的一部分。Suno V4、Udio、Stable Audio 2.0、ElevenLabs Music 这一批模型,已经能在 30 秒到 4 分钟之间,输出可商用、可二次混音的成品级音乐。但同样输入"一首流行歌",有人产出抖音爆款,有人却得到一段廉价的电子和弦——差距几乎全在提示词。
这篇文章给你一套可直接复用的提示词框架、参数表与风格库,覆盖短视频配乐、品牌广告、播客片头、游戏 BGM 等高频场景。
提示词的四层结构
主流 AI 音乐模型对提示词的解析,几乎都遵循"风格-情绪-乐器-结构"四层模型。把这四层写清楚,效果稳定性会从 30% 提升到 80% 以上。
第一层是风格标签(Genre)。这是最强的语义锚点,必须放在提示词最前。例如 lo-fi hip hop、synthwave、orchestral cinematic、UK garage、city pop。模型对风格名的训练样本最密集,写得越具体越好——90s boom bap hip hop 就比 hip hop 精确得多。
第二层是情绪与氛围(Mood)。常用词包括 melancholic、uplifting、tense、dreamy、gritty、nostalgic。注意中英文混写的效果普遍不如纯英文,Suno 和 Udio 的训练语料以英文为主。
第三层是乐器与声音设计(Instrumentation)。指明主奏乐器、节奏乐器、空间感。比如 warm Rhodes piano lead, dusty drum break, upright bass, vinyl crackle。这一层是区分"AI 味"和"人味"的关键——越具体的乐器组合,越不像模板。
第四层是结构与节奏(Structure & Tempo)。包括 BPM、调性、段落安排。90 BPM, A minor, intro-verse-chorus-bridge-outro 是一个标准写法。Suno V4 已经能识别 [Verse]、[Chorus]、[Drop] 这类结构标记,对长曲控制非常有用。
一个可直接套用的万能模板
把上面四层组合,得到这个万能模板:
`` [Genre/Subgenre], [Mood], [Key Instruments + Sound Design], [BPM] BPM, [Key], [Structure markers if needed]
`
举个例子,做一个咖啡店 vlog 的开场配乐:
` Lo-fi hip hop with jazz influence, calm and nostalgic, warm Rhodes piano, soft brushed drums, upright bass, subtle vinyl crackle, 75 BPM, F major, [Intro] mellow piano alone, [Verse] full beat enters
`
再做一个产品发布会的高能开场:
` Cinematic epic trailer, rising tension to triumphant release, deep brass swells, taiko drums, staccato strings, choir hits, sub-bass impacts, 130 BPM, D minor, [Build] 0-20s riser, [Drop] 20-40s full ensemble
`
这两段都能在 Suno V4、Udio 上稳定产出可用结果,差异在于风格库的精度。
12 类高频场景的风格速查表
下面是一份按业务场景整理的风格库,每条都给出可直接复制的提示词片段。
短视频/抖音爆款:viral pop, punchy 808 bass, vocal chops, sidechained synth, sparkly hi-hats, 128 BPM。这个组合在抖音、TikTok 算法里完播率最高。
Vlog 旅行:indie folk, acoustic guitar fingerpicking, glockenspiel, soft male hum, wide reverb, 95 BPM, C major。情绪温和,画面让位给音乐。
美食探店:bossa nova lounge, nylon guitar, brushed snare, mellow flute, walking bass, 110 BPM。轻快但不抢戏。
科技产品演示:minimal techno, clean four-on-the-floor kick, analog pluck synths, white noise riser, 124 BPM, A minor。冷静、未来感、不抢镜。
汽车/运动品牌广告:big room electronic rock, driving distorted guitar, pulsing synth bass, cinematic drums, 140 BPM, E minor。能量充沛。
奢侈品/时尚:dark sensual house, deep house bass, filtered vocal sample, jazzy piano stabs, 122 BPM。质感和留白同样重要。
儿童/教育内容:playful ukulele pop, marimba, whistling melody, hand claps, light shaker, 100 BPM, G major。明亮但不吵闹。
游戏 BGM 探索:fantasy orchestral exploration, harp arpeggios, woodwind solos, distant horns, light percussion, 80 BPM。可循环、低疲劳。
游戏 BGM 战斗:hybrid orchestral action, aggressive strings ostinato, taiko ensemble, electric guitar power chords, brass blasts, 150 BPM。张力明确。
播客片头:upbeat lo-fi indie, claps, simple piano riff, warm bass, 105 BPM, 15-second hook。短而记忆点强。
冥想/睡眠:ambient drone, soft pad layers, binaural-style stereo field, no percussion, 60 BPM, slow evolving。无打击乐是关键。
ASMR/专注:neoclassical piano with rain ambience, felt piano, light strings, distant thunder, 65 BPM, D-flat major。
模型差异与参数选择
不同模型的"提示词性格"差异很明显,选错模型再好的提示词也救不回来。
Suno V4 强项是带人声的完整歌曲,对中文歌词支持稳定,结构标记 [Verse][Chorus][Bridge] 解析最准。弱项是纯器乐和电影配乐的层次感。适合做:广告主题曲、短视频带词版本、品牌歌曲。
Udio 在器乐质感、混音空间和乐器演奏细节上更接近真人录音,extend、inpainting 功能成熟。适合做:影视片段配乐、有声书背景、需要后期混音的项目。
Stable Audio 2.0 没有人声,但纯器乐和音效设计极强,可以一次产出最长 3 分钟无缝循环。适合做:游戏 BGM、播客 jingle、音效素材库。
ElevenLabs Music 最新发布,强项是与该公司 TTS 工具链整合,做有声内容时配音和配乐可以同节奏渲染。
参数上有几条经验值:BPM 在大多数流行场景落在 90-128 之间,电子舞曲 124-140,电影配乐 60-150 跨度更大。调性优先选 minor(小调)做严肃、深沉、张力内容,major(大调)做明亮、轻快、温暖内容。曲长方面,社交视频片头 15 秒、产品广告 30 秒、片尾完整版 60-90 秒,是目前商用最高频的三档。
实战案例:做一支抖音爆款 BGM
下面把整个流程跑一遍。需求:给一支美妆短视频做 30 秒 BGM,目标是开头 3 秒钩子强、12 秒处情绪转折。
第一版提示词:
` Glittery hyperpop, euphoric and confident, chopped vocal samples, supersaw lead, heavy 808 bass, fast hi-hats, sidechained pads, 135 BPM, F# minor, [Hook 0-3s] vocal chop drop, [Build 3-12s] rising synth and snare roll, [Drop 12-30s] full energy chorus
`
跑出来如果觉得"AI 味"太重,加两个细节:subtle tape saturation(让顶部不刺耳)、live drum fills before drop(让段落转换更自然)。
如果客户反馈"太满",把 heavy 808 换成 controlled 808,把 fast hi-hats 换成 syncopated hi-hats with rests,留出呼吸感。
这种"先打主框架、再加 2-3 个修饰词"的迭代节奏,比一次写满 50 个标签效率高得多。
商用与版权注意事项
到 2026 年,主流 AI 音乐平台的商用授权条款已经趋同,但仍有几个红线必须避开。
不要在提示词里写真实艺人名字。in the style of Taylor Swift 这种写法在 Suno 等平台已被识别拦截,且即便生成成功,商用也会构成风险。改用风格描述:female pop vocal in the style of late-2020s synthpop。
不要直接 reference 知名 IP 的旋律。AI 模型可能从训练数据中重现片段,作为创作者你需要自己做一遍 melody 检查,可以用 AudioTag、Shazam 反查输出片段,避免命中已有作品。
订阅版权要看清。Suno Pro、Udio Standard 都允许付费用户保留商用权利,但部分免费档生成的作品仅限个人使用。在给客户交付前,确认账号档位和具体输出文件的授权状态。
提示词资产管理
如果你在团队里做内容生产,把提示词当代码管理,回报会非常高。建议至少做三件事:
按场景建立提示词库,命名规范化(如 vlog/travel/morning-coffee.txt),每条记录最终生成 ID、模型版本、客户反馈。三个月后回看,能清晰看出哪些模板复用率高。
每次成功生成后,把"种子提示词 + 微调路径 + 最终成品"打包归档。同一支客户的下一轮需求,可以直接 fork 上一支的种子,迭代速度翻倍。
把"反向提示词"也记录下来。比如某个客户明确不要 dubstep wobble、autotuned vocals,下次生成时直接在提示词末尾加 --no dubstep, no autotune(部分模型支持),或在描述中写 clean vocals without autotune`。
写在最后
AI 音乐生成不是"输入心情、输出神曲"的魔法。它是一套需要刻意练习的语言能力——你越能用专业制作人的词汇精准描述声音,模型就越能给你专业制作人级别的输出。
把这篇里的模板和风格库放进你的工具栏,跑 20-30 个真实项目,你的提示词肌肉记忆会自然形成。到那时候,"用 AI 做音乐"对你来说就和写 prompt 调 ChatGPT 一样自然。