G
图像生成
9 分钟阅读更新于 2026-05-25

图片比例与构图:选择正确尺寸的指南

从实战出发讲解AI图像生成中比例与构图的选择逻辑、参数配置和行业场景应用。
图片比例
构图技巧
AI绘画
Midjourney
Stable Diffusion

# 图片比例与构图:选择正确尺寸的指南

在AI图像生成的工作流中,比例选择往往被低估。许多创作者把注意力都放在提示词的雕琢上,却忽略了一个事实:同样的提示词,换一个比例输出,画面叙事、人物姿态、光影走向都会完全不同。这篇指南从实战角度讲清楚,不同场景该用什么比例、为什么、以及如何把构图意图通过参数稳定地传递给模型。

为什么比例先于提示词

模型在训练时,每种分辨率/比例下学到的图像分布是不一样的。1:1更多来自Instagram、专辑封面、产品图;16:9更多来自电影截图、桌面壁纸、游戏宣传图;9:16则集中在手机短视频封面、海报、人像写真。这意味着你写"cinematic lighting"时,在16:9下模型会自然倾向于电影感构图,而在1:1下它更可能给出一张"看起来像电影的方图",并不是真的电影感。

实战经验:先确定终端用途,再决定比例,最后才写提示词。反过来做的人,往往要在后期反复裁切,浪费算力和时间。

常用比例速查与典型场景

下面是我在实际项目中沉淀下来的对照表,覆盖90%的商用场景:

  • 1:1(1024×1024):社交媒体头像、产品主图、专辑封面、电商SKU缩略图。Midjourney默认比例,Stable Diffusion SDXL原生训练分辨率。
  • 4:5(1024×1280):Instagram Feed最优显示比例,比1:1占屏更大,转化率高约15-20%。
  • 9:16(1080×1920):抖音、小红书、TikTok竖版封面,朋友圈广告,手机壁纸。
  • 16:9(1920×1080):B站封面、YouTube缩略图、PPT配图、横屏广告、桌面壁纸。
  • 3:2(1536×1024):传统单反相机比例,杂志内页、博客头图、新闻配图。
  • 2:3(832×1248):电影海报、书籍封面、人物全身像。
  • 21:9(2560×1080):电影超宽屏、横幅Banner、网站首屏Hero区。
  • 3:4(896×1152):肖像照、人像写真、Pinterest图钉。
  • 一个常见的误区是"越大越好"。SDXL在1024基准分辨率下表现最稳定,强行拉到2048×2048往往会出现重复元素(两个头、四只手)。正确做法是先用基准分辨率出图,再用Real-ESRGAN或SUPIR放大。

    比例如何改变画面叙事

    同一个提示词在不同比例下,模型给出的构图差异远比想象中大。我做过一组对照测试,提示词固定为:

    ``

    a lone samurai standing on a cliff, dramatic sunset,

    cinematic composition, volumetric light, 8k

    `

  • 1:1输出:人物居中,半身或全身近景,背景压缩,像一张人物特写卡。
  • 16:9输出:人物偏左1/3处,右侧大量留白给云海和夕阳,电影宽幅感。
  • 9:16输出:人物占据下1/3,上方延伸出巨大的天空和悬崖,强调孤独和高度。
  • 2:3输出:标准海报构图,人物占中下1/2,上方留title空间。
  • 这就是为什么同一个故事,做电影海报选2:3,做横屏壁纸选16:9,做短视频封面选9:16。比例本身就是叙事工具。

    构图法则在提示词中的落地

    知道比例只是第一步,让模型按你想要的构图出图才是关键。以下是几个验证过有效的提示词模式:

    三分法构图

    `

    rule of thirds composition, subject placed at left third intersection,

    negative space on right, --ar 16:9

    `

    适合产品图、人物环境照、风景。模型识别"rule of thirds"的能力在SDXL和Flux上已经相当可靠。

    居中对称

    `

    centered composition, perfect symmetry, vanishing point in center,

    one-point perspective, --ar 1:1

    `

    适合建筑、走廊、神殿、对称场景。Wes Anderson风格的招牌构图。

    引导线

    `

    leading lines drawing eye to subject, diagonal composition,

    foreground rocks pointing to lighthouse, --ar 3:2

    `

    适合风景、城市、长焦压缩场景。

    框架式构图

    `

    framed composition, archway in foreground, subject visible through the frame,

    depth layers, --ar 4:5

    `

    适合人像、街拍、有故事感的场景。

    低角度/高角度

    `

    low angle shot, looking up at subject, dramatic perspective,

    sky background, --ar 9:16

    `

    低角度+9:16是英雄镜头标配;高角度+16:9是俯瞰全局的纪录片视角。

    主流工具的比例参数对照

    不同平台的参数语法差异不大,但有一些细节值得注意:

    Midjourney v6/v7

    `

    /imagine prompt: cyberpunk street market, neon lights --ar 16:9 --style raw --v 7

    `

    --ar接受任意比例,但极端比例(如32:9)会触发裁切而非原生生成。

    Stable Diffusion / ComfyUI

    直接在K-Sampler前设置latent尺寸。SDXL推荐:

  • 1:1 → 1024×1024
  • 16:9 → 1344×768
  • 9:16 → 768×1344
  • 4:5 → 912×1144
  • 3:2 → 1216×832

不要随便填1920×1080,模型未在该分辨率训练过,结果是bucket过载和构图崩坏。

Flux.1 dev/pro

Flux对非标准比例容忍度更高,1536×640做超宽幅依然稳定,但建议总像素控制在2M以内。

DALL·E 3

只支持三种:1024×1024、1792×1024、1024×1792。在ChatGPT中可以用自然语言指定"竖版"或"横版"。

后期裁切 vs 原生比例

很多人喜欢生成1:1再裁成9:16,这是一个昂贵的坏习惯。原因:

1. 裁切意味着扔掉50%以上的有效像素,分辨率打折。

2. 1:1构图的"视觉重心"在中央,强行裁成9:16会让重心偏移,构图失衡。

3. 模型在1:1下不会主动生成"上下延伸"的元素,比如完整的天空或脚下的地面,裁切后画面会显得拥挤或空洞。

例外情况:你需要同一画面输出多个比例(社媒矩阵分发),可以先用outpainting扩展。流程是:

1. 用4:5生成主画面(核心信息密度最高)

2. 用outpainting向上下扩展到9:16,向左右扩展到16:9

3. 在Photoshop或Figma里统一裁切定版

ComfyUI里的Image Pad For Outpainting节点配合Flux Fill或SDXL inpainting模型可以做到无缝扩展。

行业场景实战配置

下面是几个真实项目的配置,可以直接套用:

电商主图

`

product on minimalist background, soft studio lighting,

50mm lens, sharp focus, commercial photography --ar 1:1 --style raw

`

平台要求:淘宝主图800×800及以上,1:1必选。建议生成1024×1024再压缩。

小红书封面

`

flat lay composition, top-down view, cozy aesthetic,

warm tones, lifestyle photography --ar 3:4

`

小红书首图3:4最佳,4:5次之。注意上方留出标题位(约1/4高度)。

B站视频封面

`

dynamic composition, subject on left, bold negative space on right for title,

high contrast colors --ar 16:9

`

1146×717是B站推荐尺寸,按16:9生成1344×768再缩放即可。右侧必须留标题空间。

网站Hero Banner

`

ultra-wide cinematic landscape, atmospheric perspective,

subtle gradient background --ar 21:9

`

桌面端Hero区2560宽是主流,21:9或更宽的比例能让首屏更有冲击力。

移动端开屏广告

`

vertical composition, central subject, top headline area,

bottom CTA area --ar 9:16

`

记得在提示词里明确"top headline area"和"bottom CTA area",模型会主动留白。

常见坑与排查

坑1:人物畸形。9:16生成全身人像时,模型容易把腿拉得过长或脸压扁。解法:在提示词里加full body, anatomically correct proportions,并把ControlNet OpenPose配上。

坑2:重复元素。比例越极端,越容易出现两个太阳、三只手。解法:分辨率不超过模型基准的1.5倍,超过部分用放大模型解决。

坑3:构图主体偏离subject at left third有时不生效,因为提示词权重不够。解法:用(subject at left third:1.4)提权,或用regional prompting分区控制。

坑4:留白被填满。模型倾向于把画面填满细节。解法:明确写negative space, minimalist background, clean composition,并在反向提示词里加cluttered, busy background`。

我的工作流建议

1. 写提示词前先画一张构图草图(手绘或Figma框线即可),确定主体位置和留白。

2. 根据用途选定比例,记住一句话:横屏讲环境,竖屏讲人物,方图讲对称。

3. 用基准分辨率出图,先看构图是否对,再雕细节。

4. 构图对了再放大,不要在小图上反复换提示词调细节。

5. 同一画面多比例分发时,用outpainting而不是裁切。

比例不是技术参数,是叙事选择。下次开始一个项目时,把"用什么比例"作为第一个问题,而不是最后一个。你会发现整个工作流的稳定性和出图质量都会上一个台阶。