中英文 prompt 不是简单二选一
很多教程喜欢一刀切:"用 Midjourney 一定要用英文"、"国内模型用中文就够了"。实际情况比这复杂得多。同一个 prompt 里混用中英文,往往比纯中文或纯英文效果都好。关键是判断每个词更适合哪种语言。
不同模型的中英文支持现状
Seedream(豆包系列)
中文是母语级支持。文学化描述、四字成语、特定文化场景(江南水乡、敦煌壁画)用中文反而更准。技术参数(35mm、f/1.4)保留英文。
Gemini Imagen 4 / Veo
2026 年中文能力已经接近英文。复杂文学描述用中文不会损失,但前沿艺术运动(vaporwave、cyberpunk)保留英文更稳。
Midjourney
英文优化最深,中文支持有提升但仍弱于英文。建议核心描述用英文,配合简单中文修饰词。
Stable Diffusion / Flux
取决于具体的训练版本。多数开源 checkpoint 是英文优先,中文 prompt 需要先翻译。
DeepSeek / Kimi 等国产文本模型
中文是绝对主场。这类模型用纯中文写 prompt 更自然。
三个原则决定语言选择
原则 1:专有名词保留原语言
涉及具体品牌、电影、艺术家、相机型号、画种流派等专有名词,保留它们的原始语言:
- Kodak Portra 400(不要写成"柯达 Portra 400")
- Wes Anderson style(不要写成"韦斯·安德森风格")
- ukiyo-e(写成"浮世绘"也可以,多数模型都认)
- Studio Ghibli aesthetic
- bauhaus design
- 描述东方场景:江南水乡、四合院、和服樱花、京都町屋——用中日文更准
- 描述西方场景:parisian apartment、tuscan villa、brooklyn warehouse——用英文更准
- 50mm f/1.4
- shallow depth of field
- bokeh
- HDR
- watermark, low quality(负面词)
模型训练时这些专有名词通常和英文(或日文罗马字)的视觉特征绑定,翻译成中文反而损失信息。
原则 2:文化感强的场景用本国语言
模型对这些场景的训练数据天然带有原语言标签,匹配度更高。
原则 3:技术参数和负面词用英文
镜头、景深、分辨率、负面词等技术词汇,几乎所有模型都用英文标注训练:
写成中文虽然也能识别,但稳定性下降。
实战案例:四种典型混搭
案例 1:东方人物写实
需求:一位中国年轻女性在江南水乡的写实人像
`` 一位 25 岁的中国女性,长发披肩,穿着米色亚麻连衣裙, 站在乌镇的石拱桥上,shot on 50mm f/1.4,shallow depth of field, golden hour lighting,cinematic film grain, muted color palette with subtle warm highlights, --ar 4:5
`
人物身份和地点用中文(更精准),技术参数用英文(更稳定)。
案例 2:西方电影感场景
需求:纽约公寓的孤独感画面
` A 30-year-old man sitting alone by a large window in a Brooklyn brownstone apartment, late afternoon Manhattan skyline visible in the distance, moody overcast lighting, shot on 35mm Kodak Portra 800, subtle film grain, cool teal color grading, slight melancholy mood, --ar 16:9
`
整个场景的文化语境是西方的,全英文最稳。
案例 3:日系动漫风格
需求:宫崎骏风格的奇幻乡村
` A small countryside village with thatched-roof houses, 背景有一座漂浮的小岛,arched stone bridge over a clear stream, Studio Ghibli style, hand-drawn animation aesthetic, soft watercolor textures, warm pastel palette, 夕阳下的金色云朵,gentle wind moving the wheat fields, --ar 16:9
`
风格关键词(Studio Ghibli style)必须英文,氛围描述中英都行。
案例 4:商业产品图
需求:高端化妆品瓶身展示
` 一支 30ml 的精致玻璃精华瓶,金色瓶盖,琥珀色液体清澈可见, on a polished marble surface, dramatic side lighting from upper left, product photography, commercial-grade, professional studio setup, shot on Canon EOS R5 with 100mm macro lens, clean white background with subtle gradient, --ar 1:1
``
产品本身用中文(描述更细腻),摄影术语和器材用英文(标准化)。
一个常被忽略的细节:词序
中文是"主谓宾 + 修饰",英文是"修饰 + 名词"。同一句话语序不同,模型理解的重点也不同。
中文写法:
一只橘色虎斑猫,蜷缩在飘窗上打盹,清晨柔和的窗光
英文写法:
A ginger tabby cat curled up napping on a bay window, soft morning window light
注意英文里 cat 是中心词,前面所有形容词都修饰它。中文里"猫"在前,后面动作和环境补充。
混用时要避免英文修饰词错位。错误示例:
一只 ginger tabby 的猫蜷缩在 bay window 上
这种碎片化混用会让模型困惑。要么整段中文,要么整段英文,混用时按"句子级"切换,不要按"词级"切换。
中英文 prompt 的常见错误
错误 1:机械翻译技术词
"shallow depth of field"翻译成"浅景深"虽然没错,但很多平台的解析器对原文识别更优。技术词保留英文。
错误 2:文化错位
写"在东京涩谷的咖啡馆,shot on 哈苏 H6D"——专有相机品牌用中文翻译反而稀有,模型不一定认。改成 Hasselblad H6D。
错误 3:长 prompt 全英文导致的细节丢失
有些复杂的中文场景("江南雨巷的青石板"),翻译成英文后变成 "wet cobblestone street in a southern Chinese town",文化精确度大打折扣。这种情况直接用中文。
错误 4:忽略模型版本差异
同一个模型,不同版本的中文支持差很多。Seedream 1.0 和 Seedream 4.0 的中文理解能力不在一个量级。新模型出来时记得重新测试。
一份模型语言策略速查表
| 模型 | 主语言 | 适合中文的场景 | 必须英文的场景 |
|------|--------|----------------|----------------|
| Seedream 4+ | 中文 | 几乎全部 | 技术参数、专有名词 |
| Gemini Imagen 4 | 双语 | 复杂叙事、文学描述 | 艺术运动、相机型号 |
| Midjourney v7+ | 英文 | 简单风格词 | 主体、环境、技术参数 |
| Flux Pro | 英文 | 短描述 | 复杂场景 |
| Veo 3+ | 双语 | 东方场景 | 电影术语、镜头运动 |
| Seedance | 中文 | 几乎全部 | 镜头运动、节奏术语 |
写在最后
中英文混用不是炫技,而是把每个词放在它最能发挥的位置。一个高水平的 prompt 写作者,应该像翻译家一样在两种语言间自如切换,而不是被语言绑住。
练习方法:找 10 张你喜欢的不同文化背景的图片,每张都用最佳中英混搭方式写出 prompt。坚持一个月,你会形成自己的语言直觉。