# 图片比例与构图:选择正确尺寸的指南
在AI图像生成的工作流中,比例选择往往被低估。许多创作者把注意力都放在提示词的雕琢上,却忽略了一个事实:同样的提示词,换一个比例输出,画面叙事、人物姿态、光影走向都会完全不同。这篇指南从实战角度讲清楚,不同场景该用什么比例、为什么、以及如何把构图意图通过参数稳定地传递给模型。
为什么比例先于提示词
模型在训练时,每种分辨率/比例下学到的图像分布是不一样的。1:1更多来自Instagram、专辑封面、产品图;16:9更多来自电影截图、桌面壁纸、游戏宣传图;9:16则集中在手机短视频封面、海报、人像写真。这意味着你写"cinematic lighting"时,在16:9下模型会自然倾向于电影感构图,而在1:1下它更可能给出一张"看起来像电影的方图",并不是真的电影感。
实战经验:先确定终端用途,再决定比例,最后才写提示词。反过来做的人,往往要在后期反复裁切,浪费算力和时间。
常用比例速查与典型场景
下面是我在实际项目中沉淀下来的对照表,覆盖90%的商用场景:
- 1:1(1024×1024):社交媒体头像、产品主图、专辑封面、电商SKU缩略图。Midjourney默认比例,Stable Diffusion SDXL原生训练分辨率。
- 4:5(1024×1280):Instagram Feed最优显示比例,比1:1占屏更大,转化率高约15-20%。
- 9:16(1080×1920):抖音、小红书、TikTok竖版封面,朋友圈广告,手机壁纸。
- 16:9(1920×1080):B站封面、YouTube缩略图、PPT配图、横屏广告、桌面壁纸。
- 3:2(1536×1024):传统单反相机比例,杂志内页、博客头图、新闻配图。
- 2:3(832×1248):电影海报、书籍封面、人物全身像。
- 21:9(2560×1080):电影超宽屏、横幅Banner、网站首屏Hero区。
- 3:4(896×1152):肖像照、人像写真、Pinterest图钉。
- 1:1输出:人物居中,半身或全身近景,背景压缩,像一张人物特写卡。
- 16:9输出:人物偏左1/3处,右侧大量留白给云海和夕阳,电影宽幅感。
- 9:16输出:人物占据下1/3,上方延伸出巨大的天空和悬崖,强调孤独和高度。
- 2:3输出:标准海报构图,人物占中下1/2,上方留title空间。
- 1:1 → 1024×1024
- 16:9 → 1344×768
- 9:16 → 768×1344
- 4:5 → 912×1144
- 3:2 → 1216×832
一个常见的误区是"越大越好"。SDXL在1024基准分辨率下表现最稳定,强行拉到2048×2048往往会出现重复元素(两个头、四只手)。正确做法是先用基准分辨率出图,再用Real-ESRGAN或SUPIR放大。
比例如何改变画面叙事
同一个提示词在不同比例下,模型给出的构图差异远比想象中大。我做过一组对照测试,提示词固定为:
`` a lone samurai standing on a cliff, dramatic sunset, cinematic composition, volumetric light, 8k
`
这就是为什么同一个故事,做电影海报选2:3,做横屏壁纸选16:9,做短视频封面选9:16。比例本身就是叙事工具。
构图法则在提示词中的落地
知道比例只是第一步,让模型按你想要的构图出图才是关键。以下是几个验证过有效的提示词模式:
三分法构图
` rule of thirds composition, subject placed at left third intersection, negative space on right, --ar 16:9
`
适合产品图、人物环境照、风景。模型识别"rule of thirds"的能力在SDXL和Flux上已经相当可靠。
居中对称
` centered composition, perfect symmetry, vanishing point in center, one-point perspective, --ar 1:1
`
适合建筑、走廊、神殿、对称场景。Wes Anderson风格的招牌构图。
引导线
` leading lines drawing eye to subject, diagonal composition, foreground rocks pointing to lighthouse, --ar 3:2
`
适合风景、城市、长焦压缩场景。
框架式构图
` framed composition, archway in foreground, subject visible through the frame, depth layers, --ar 4:5
`
适合人像、街拍、有故事感的场景。
低角度/高角度
` low angle shot, looking up at subject, dramatic perspective, sky background, --ar 9:16
`
低角度+9:16是英雄镜头标配;高角度+16:9是俯瞰全局的纪录片视角。
主流工具的比例参数对照
不同平台的参数语法差异不大,但有一些细节值得注意:
Midjourney v6/v7:
` /imagine prompt: cyberpunk street market, neon lights --ar 16:9 --style raw --v 7
`
--ar接受任意比例,但极端比例(如32:9)会触发裁切而非原生生成。
Stable Diffusion / ComfyUI:
直接在K-Sampler前设置latent尺寸。SDXL推荐:
不要随便填1920×1080,模型未在该分辨率训练过,结果是bucket过载和构图崩坏。
Flux.1 dev/pro:
Flux对非标准比例容忍度更高,1536×640做超宽幅依然稳定,但建议总像素控制在2M以内。
DALL·E 3:
只支持三种:1024×1024、1792×1024、1024×1792。在ChatGPT中可以用自然语言指定"竖版"或"横版"。
后期裁切 vs 原生比例
很多人喜欢生成1:1再裁成9:16,这是一个昂贵的坏习惯。原因:
1. 裁切意味着扔掉50%以上的有效像素,分辨率打折。
2. 1:1构图的"视觉重心"在中央,强行裁成9:16会让重心偏移,构图失衡。
3. 模型在1:1下不会主动生成"上下延伸"的元素,比如完整的天空或脚下的地面,裁切后画面会显得拥挤或空洞。
例外情况:你需要同一画面输出多个比例(社媒矩阵分发),可以先用outpainting扩展。流程是:
1. 用4:5生成主画面(核心信息密度最高)
2. 用outpainting向上下扩展到9:16,向左右扩展到16:9
3. 在Photoshop或Figma里统一裁切定版
ComfyUI里的Image Pad For Outpainting节点配合Flux Fill或SDXL inpainting模型可以做到无缝扩展。
行业场景实战配置
下面是几个真实项目的配置,可以直接套用:
电商主图
` product on minimalist background, soft studio lighting, 50mm lens, sharp focus, commercial photography --ar 1:1 --style raw
`
平台要求:淘宝主图800×800及以上,1:1必选。建议生成1024×1024再压缩。
小红书封面
` flat lay composition, top-down view, cozy aesthetic, warm tones, lifestyle photography --ar 3:4
`
小红书首图3:4最佳,4:5次之。注意上方留出标题位(约1/4高度)。
B站视频封面
` dynamic composition, subject on left, bold negative space on right for title, high contrast colors --ar 16:9
`
1146×717是B站推荐尺寸,按16:9生成1344×768再缩放即可。右侧必须留标题空间。
网站Hero Banner
` ultra-wide cinematic landscape, atmospheric perspective, subtle gradient background --ar 21:9
`
桌面端Hero区2560宽是主流,21:9或更宽的比例能让首屏更有冲击力。
移动端开屏广告
` vertical composition, central subject, top headline area, bottom CTA area --ar 9:16
`
记得在提示词里明确"top headline area"和"bottom CTA area",模型会主动留白。
常见坑与排查
坑1:人物畸形。9:16生成全身人像时,模型容易把腿拉得过长或脸压扁。解法:在提示词里加full body, anatomically correct proportions,并把ControlNet OpenPose配上。
坑2:重复元素。比例越极端,越容易出现两个太阳、三只手。解法:分辨率不超过模型基准的1.5倍,超过部分用放大模型解决。
坑3:构图主体偏离。subject at left third有时不生效,因为提示词权重不够。解法:用(subject at left third:1.4)提权,或用regional prompting分区控制。
坑4:留白被填满。模型倾向于把画面填满细节。解法:明确写negative space, minimalist background, clean composition,并在反向提示词里加cluttered, busy background`。
我的工作流建议
1. 写提示词前先画一张构图草图(手绘或Figma框线即可),确定主体位置和留白。
2. 根据用途选定比例,记住一句话:横屏讲环境,竖屏讲人物,方图讲对称。
3. 用基准分辨率出图,先看构图是否对,再雕细节。
4. 构图对了再放大,不要在小图上反复换提示词调细节。
5. 同一画面多比例分发时,用outpainting而不是裁切。
比例不是技术参数,是叙事选择。下次开始一个项目时,把"用什么比例"作为第一个问题,而不是最后一个。你会发现整个工作流的稳定性和出图质量都会上一个台阶。