你花半小时写了一段“详细描述”,结果AI绘图出来的不是三头六臂就是背景糊成鬼。问题不在AI,在你不会写prompt。AI 绘图 prompt 提示词技巧能让你的指令从“随便画个猫”变成“太平洋岛礁上戴着反光墨镜的写实猫,戏剧光,微距,2:3画幅”——5种结构技巧+反面排除法,读完后3分钟就能让出图质量翻倍。
AI 绘图 prompt 的通用结构:从主体到细节的公式化写作
新手最容易犯的错误:写 prompt 靠玄学,想到哪写到哪。一张图生成三次,三次风格完全不像同一个东西。
AI 绘图 prompt 提示词技巧的第一步,就是掌握一个标准化的结构公式。这个公式不在乎你用 Midjourney v6.1 还是 Stable Diffusion XL 1.0,底层逻辑一致:主体 + 媒介 + 环境 + 光照 + 角度。
一个不够,五个来凑
以 [4] 中的经典案例为例,改造前后的对比非常明显:
- 无效 prompt:
a cat - 有效 prompt:
Pov Highly defined macrophotography of a realistic cat wearing reflective sunglasses relaxing at the tropical island, dramatic light --ar 2:3 --v 5(来源 [4])
差别在哪?前者只有一个“主体”。后者按公式拆解:
- 主体 (Subject):
a realistic cat wearing reflective sunglasses - 媒介 (Medium):
macrophotography(指定了这是微距摄影,决定景深感) - 环境 (Environment):
tropical island(背景不再是空气) - 光照 (Lighting):
dramatic light(阴影和高光的具体品质,是生成电影感的关键) - 角度 (Angle):
Pov(第一人称视角,主动控制构图)
关键技巧:把每个元素当作一个“参数”来写,用逗号隔开。AI 对逗号分隔的理解远好于复杂的主谓宾长句(来源 [1])。
从抽象到具体的转换法则
很多人卡在“写细节”这一步。转换法则很简单:把形容词换成具体名词或技术术语。
- 抽象:
beautiful face→ 具体:symmetrical face, high cheekbones, clear skin, photorealistic texture - 抽象:
good lighting→ 具体:cinematic lighting, soft rim light, volumetric fog - 抽象:
nice background→ 具体:cyberpunk cityscape, neon signs, rain-soaked asphalt
参考 [2] 中提到的 AI Art Prompt Builder,其核心逻辑就是将用户的模糊输入转化为类似“35mm film photography, f/1.8 aperture, shallow depth of field”这样的结构化指令。
注意:如果你一开始无法同时掌控五个元素,先固定“主体”和“媒介”两个最底层的参数。其他三个根据生成效果逐步微调。错误出在哪一步,就改对应位置的参数,不要全盘推翻重写。
反向提示词:用 Negative Prompt 排除不想要的元素
AI绘图默认会“平均”所有出现的特征。不加限制,它倾向于填充画面——增加多余四肢、模糊背景、扭曲人脸。Negative Prompt(反向提示词) 直接告诉AI不要画什么,比反复修改正向prompt更高效。
Midjourney与Stable Diffusion处理反向提示词的语法不同,但逻辑一致。
Midjourney使用 --no 参数
在prompt末尾加上 --no 并列出排除对象。多个元素用逗号分隔。
- 生成写实人物,排除多余肢体和模糊细节:
photorealistic portrait of a man, dramatic lighting --ar 2:3 --no extra limbs, blurry face, duplicate head - 生成科幻城市夜景,排除现代元素:
cyberpunk city street at night, neon lights, rain --no cars, humans, billboards
注意:
--no不适合否定抽象概念。否定“ugly”(丑陋)通常无效,因其本身就是主观修饰,AI难以量化。应排除具体物体:--no deformed hands远比--no ugly有效。
Stable Diffusion使用 Negative prompt 字段
SD系列(包括SDXL和SD 1.5)在txt2img界面的“Negative prompt”文本框中填写。常见排除项是一个组合词串,节省token,提高出图稳定性。
推荐SD反向提示词组合(来源 [1]):
worst quality, low quality, ugly, deformed, blurry, low resolution, bad anatomy, bad hands, extra fingers, missing fingers, fused fingers, cropped, jpeg artifacts, text, watermark, signature
此组合排除三类问题:
- 画质缺陷:
worst quality, low quality, blurry, low resolution, jpeg artifacts - 解剖错误:
bad anatomy, bad hands, extra fingers, missing fingers, fused fingers - 干扰元素:
text, watermark, signature, cropped
权重微调:针对顽固错误
当AI反复画出同一个错误(如第6根手指),可单独加重排除权重。SD中语法为:(extra fingers:1.4)。括号外系数越大,排除力度越强。系数1.4-1.6效果明显,1.8以上可能影响其他正常区域。
真实场景对比:生成人像时,正向prompt cinematic portrait of a woman 有30%几率出现六指。加上 (extra fingers:1.5) 后,20张图零出错。这正是AI绘图prompt提示词技巧中,用最小改动解决最大问题的典型方法。
反向提示词不是“写一次就完”。每次新风格或新模型,建议生成2-3张图,观察共性错误,将重复出现的元素加入Negative Prompt。随模型社区更新(如SDXL 1.0的解剖结构比1.5更稳定),反向提示词也需要精简。
关键参数与风格控制:比例、版本、Stylize 值如何影响画面
主体描述写得再细,如果参数没调对,AI依然会给出意料外的画面。AI 绘图 prompt 提示词技巧除了正向和反向指令,还包括末尾的几个关键数值参数。它们独立于文本描述,直接控制画面比例、模型版本和风格化强度,优先级高于任何形容词。
画面比例(--ar):先定构图骨架
--ar 后跟两个冒号分隔的数字,例如 --ar 16:9。比例影响景别和画面重心,不指定则默认 1:1(方形)。
- 1:1:对称构图、头像、产品展示。AI 倾向于填充中心区域,背景细节较少。
- 3:2:传统摄影比例,适合风景、环境人物。
- 16:9:宽屏电影感,水平空间被拉伸,AI 会在左右两侧添加更多环境元素(如天空、建筑物)。
- 2:3:竖版肖像、社交媒体封面,紧贴主体,背景压缩。
注意:不同版本对
--ar的响应略有差异。Midjourney v6.1 严格遵循比例裁剪,SDXL 则可能自动扩展画布并补全背景。建议每改一次比例就重新生成 2-3 张确认裁切效果。
模型版本(--v):引擎决定基础能力
--v 指定 Midjourney 的模型版本。当前主流是 --v 6.1(2024年9月更新)。版本差异直接影响写实度、解剖准确性和风格多样性。
--v 5:高写实,但手部、复杂肢体偶尔出错。适合风景、静物。--v 5.2:改进了光影,支持更高一致性,但风格化倾向变低。--v 6/--v 6.1:解剖错误大幅减少,理解长 prompt 能力更强,支持--style raw去除内置美感滤镜。
如果你发现生成的人物手指断裂、面部扭曲,优先检查 --v 是否太低。用 --v 6.1 配合 --no extra limbs 通常能解决 80% 的结构问题。
风格化值(--s / --stylize):审美干预强度
--s 后接 0–1000 的整数(默认 100)。它控制 AI 在构图、色彩、纹理上的“创意偏移”程度。
--s 0–--s 100:低风格化。AI 严格遵循描述,画面写实、保守,细节较少。--s 250–--s 500:中等风格化。色彩更饱和,光影更戏剧,背景元素丰富。适合人物肖像、科幻场景。--s 750–--s 1000:强风格化。AI 主动添加纹理、光晕、夸张构图,甚至改变主体形状。适合概念艺术、梦幻风格。
实际效果参考:一个 prompt a realistic cat 在 --s 100 下是普通猫照;在 --s 750 下猫眼会反射斑驳光线,毛发光泽增强,背景可能出现抽象条纹。过度使用 --s 会让写实画面失真,所以先固定 --v 和 --ar,再逐步微调 --s。
这三个参数可组合写在prompt末尾,顺序不限:... --ar 16:9 --v 6.1 --s 250。调整它们比重写描述更省时间,是排查“画面为什么不好看”的第一站。
光线、构图与视角:用专业摄影语言提升 AI 绘图 prompt 细节
把“光线”改成“在下午4点的金色时刻,背光,45度侧逆光”。这个转换看起来简单,效果却差一个量级。AI 绘图 prompt 提示词技巧的进阶玩法,是用专业摄影术语替换日常词汇,让模型切换回“摄影师模式”。
光线描述:从“亮”到“具体的光质”
AI 理解的“亮”只是亮度值,而 dramatic lighting、volumetric lighting、rim light 这类词直接调用了模型训练集中的百万级打光参数。以 [4] 中的 dramatic light 为例,它把单光源场景变成了高反差+明暗交界线的电影效果。
常用的光线类型及代码效果:
golden hour:暖色调、长阴影、低角度光源。适合风景、人像。cinematic lighting:主光+补光+轮廓光三布光,人物面部立体感强。hard light/soft light:硬光产生锐利阴影(适合硬汉肖像),柔光模糊阴影(适合女性、产品)。volumetric fog:空气中的光柱或雾状效果,提升纵深感和氛围。
注意:在Midjourney v6.1中,光线词必须放在prompt前1/3段才有效,位置越靠后权重越低。SDXL则对光线词的位置不敏感,但建议加在“环境”部分之后。
构图描述:用镜头语言控制景别
AI默认生成“看到全部”的画面。你想突出局部,就必须主动说明。核心构图参数包括:
- 景别:
close-up(特写)、macro shot(微距)、wide angle(广角)、extreme wide shot(超广角)。微距会把主体放大到占据画面80%以上,广角则拉出巨大背景。 - 景深:
shallow depth of field(前景清晰背景模糊)、deep depth of field(全清晰)。SDXL对景深的理解比Midjourney好,但--s 500以上时会主动破坏浅景深。 - 镜头规格:
35mm(人文视角)、85mm(人像黄金焦段)、fish-eye lens(变形效果)。这些术语等同于给AI一个“镜头配置文件”,比写“相机从上往下拍”更精确。
视角描述:决定画面代入感
视角改变观众与主体的心理距离,摄影行业的标准视角词同样适用于prompt:
Pov(第一人称):镜头当作眼睛,主体在画面中看镜头。配合close-up会有极强的代入感。low angle(低角度):物体显得高大、有压迫感,适合建筑、英雄姿态。top-down(俯视):适合产品展示、桌面场景,减少背景干扰。side view(侧视):适合人物剪影、轮廓展示。
以 [4] 中那只猫为例,如果你改为 top-down macro shot of a realistic cat, soft daylight,图像会立即变成一张俯拍的产品级猫零食封面——视角变了,用途跟着变。上述技巧与结构公式、反向提示词结合,能最大限度降低生成结果的不确定性。
针对不同 AI 绘图工具的 prompt 适配技巧:Midjourney vs Gemini vs SD
Midjourney vs Gemini vs Stable Diffusion 的语法差异比很多人想象的更大。同一个 prompt 在不同工具里输出可能完全两样。AI 绘图 prompt 提示词技巧必须针对具体工具做适配,不能“一套模板通杀”。
Midjourney:参数驱动,位置敏感
Midjourney v6.1 的核心规则:文本描述 + 末尾参数。光线词必须放在 prompt 前 1/3 段,越靠后权重越低。
对比写法(同样描述“写实猫”):
- Midjourney
macro photography of a realistic cat, dramatic light --ar 2:3 --v 6.1 --s 250 - Stable Diffusion XL
正向框:
macro photography of a realistic cat, dramatic light负向框:worst quality, blurry, bad anatomy, extra fingers - Gemini 2.5 Flash
一张微距摄影写实猫,戏剧光,画面比例2:3
差异在哪?
- MJ:参数用
--前缀,位置顺序影响权重。 - SD:Positive + Negative 双框结构,支持权重语法
(bad hands:1.4)。 - Gemini:无参数系统,比例必须融入自然语言描述。
SD:权重语法与组合排除
SD 独有的权重微调是其他工具没有的。示例:(extra fingers:1.5), (deformed hands:1.4), worst quality
这套语法在 MJ 中完全无效。MJ 的 --no extra limbs 只能排除物体,不能加重惩罚。
Gemini:长文本与中文优势
根据官方文档,Gemini 2.5 Flash 的 token 限制是 32,768(来源[3]),远超 MJ 和 SD。这意味着:
- 可以写 5-8 行的详细描述,AI 不会丢失信息
- 直接写中文比例描述:
16:9宽幅画面 - 适合复杂场景:
一个戴反光墨镜的写实猫,在太平洋岛礁上,午后的金色光线,微距
实用忠告:不要在同一工具中混用另一工具的语法。MJ 参数在 SD 中会被忽略,SD 权重写法在 MJ 中产生乱码。每次切换工具前,先确认对方支持的指令集。
迭代优化法:如何通过重写与测试逐步逼近理想输出
理想输出很少一次生成。第一版总有些问题:构图不对、光线太平、主体位置偏离预期。AI 绘图 prompt 提示词技巧的核心不是“一次性写好”,而是“快速迭代”——通过小步重写加对比测试,在3-5轮内逼近目标。
对比测试:用“三张定基调”
不要只生成一张图就判断好坏。一次至少出 3张,对比找出共性缺陷:
- 构图偏移:如果3张主体都偏右,调整角度词
from left或centered composition - 光线偏差:如果3张都太暗,加
bright或提高\--s值50点 - 风格不一致:如果一张写实、一张卡通,检查
\--v版本是否稳定,或加photorealistic, 8k强化写实标记
对比完成后,只改一个变量。这是单变量原则——改错时能立刻定位到是哪个参数引起的偏差。
精准修改:改词而不是改描述
发现“颜色偏离”后,不要整句推倒重写。定位到是“环境”部分的颜色词不准,只替换那一个词:
- 原:
tropical island, green foliage - 改:
tropical island, turquoise water, white sand - 试:看结果是否变得更贴近预期
关键:Midjourney v6.1 对词序敏感,修改范围越小,AI 的响应越可预测。
如果修改后新问题出现(如背景变模糊),检查是否是新词带来的副作用。这时可以加 \--no blurry background 排除,而不是再换一组描述。
版本控制:记住每一步的prompt
每次修改后,保存prompt并记录版本号和生成时间。一个可复用的格式:
v1: prompt + \--ar 16:9 \--v 6.1 \--s 250 (2025-02-15)
v2: v1基础上 cat改为 golden retriever
v3: v2基础上 s改为 500
这样做的好处是:当某个版本效果特别好,你能直接复现。当某个修改失败,也能快速回退,不必从头写。
迭代的核心是“小步快跑”:一次改一个词或一个参数,生成3张,对比,再改下一个。三轮迭代后,你的prompt就从“能用”变成“稳定出高质量图”。
三大常见错误:冗长、冲突、缺乏场景——以及如何避免
写 prompt 最常见的坑有三个:形容词堆砌、抽象意图描述、缺乏背景约束。避开它们,输出质量会立刻提升。
冗余的形容词堆砌
beautiful majestic gorgeous stunning breathtaking amazing —— 五六个形容词夸同一件物体。AI 不会平等关注每个词,而是随机组合两个,导致每张图风格不一样。
解决办法:只保留 1-2 个精准形容词,其他交给主词和参数控制。
- 原:
a beautiful majestic stunning cat - 改:
a elegant cat, macro photography - 省下的 token 留给场景描述。
关键原则:形容词描述状态,名词和参数控制风格。去掉
beautiful,结果通常更好。
抽象的意图描述
a sad photo — 模型不理解“悲伤”。它只能回应物理特征:五官、光线、构图。
不要写情感,写物理特征:
- ×
a romantic atmosphere - √
soft warm light, shallow depth of field, rose petals in foreground
a futuristic feel → sleek metal surfaces, neon blue lighting, floating holograms
AI 绘图 prompt 提示词技巧:所有抽象词都是干扰。改成可测量的视觉元素:颜色、纹理、形状、光照角度。
缺乏场景与背景约束
只写 a cat,模型会默认填充背景——可能是白色 studio、草地、太空站、水墨画。这是风格冲突的源头。
明确背景,即使只是简单一句:
- ×
a cat - √
a cat on a weathered wooden fence, morning mist
背景描述的优先级:单元素优于多元素。如果写 a cat, a tree, a house,模型可能平均分配注意力导致主体不突出。要么写 a cat on a porch,要么用 Negative prompt 强制排除其他物体。
注意:背景越具体,主体越稳定。空背景默认是模型平均值——往往是最无聊、最混乱的输出。
如果不填背景,可以用 --no background 或 --no scenery 强迫模型聚焦主体。但这只适用于 Midjourney v6.1+ 和 SD XL,Gemini 不支持 Negative prompt,必须用自然语言明确。
总结
写好 prompt 只是第一步。真正让输出质量稳定的,是可复用的工作流。AI 绘图 prompt 提示词技巧的最终阶段不是记忆所有语法,而是建立一套自己的检查流程。
写 prompt 的标准流程
每次生成前,按三个步骤过一遍:
- 套结构公式:主体 + 媒介 + 环境 + 光照 + 角度,缺哪个补哪个。这是兜底模板。
- 追加参数:先设
--ar确定构图骨架,再调--v确定模型版本,最后用--s微调风格强度。 - 填反向池:根据图生图结果,把重复出现的错误加入 Negative Prompt。手部问题用
(extra fingers:1.5),画质问题用worst quality, blurry。
这个流程约30秒。跳过它直接写描述,出图后修图的时间是它的10倍。
一份可打印的检查清单
把下面内容记在备忘录里。每次卡壳时逐一比对:
- 主体是否只有一个?(多主体请分别描述,用“and”连接)
- 光线是否用专业术语而非日常词?
- 是否设置了画面比例?(默认1:1不是你想要的)
- Negative prompt 是否包含至少3个常见排除项?
- 是否开启了迭代流程?(生成3张,改1个参数,再生成3张)
常见问题快速对应表
| 问题 | 调整方向 | 示例 |
|---|---|---|
| 主体位置偏移 | 改角度词 | 加 centered composition 或 from left |
| 手指/解剖错误 | 加强反向提示 | (extra fingers:1.5),或检查 --v 版本 |
| 风格不一致 | 调整 --s 值 |
写实图 --s 100,概念图 --s 500 |
| 背景太复杂 | 加 --no background |
或改环境描述为单元素 |
| 画面太暗 | 改光线词 | 把 dramatic light 换成 soft daylight |
最后一句执行力建议
别囤积技巧文档。 打开你的 AI 绘图工具,选一个之前生成失败的 prompt,按本文的流程重写一次。一次实践胜过十页理论。 你会发现,高质量图片的生成规律并不神秘——它只是一组可重复、可调试的输入指令。