FLUX.1-Krea [dev] 是开源的AI图像生成模型,通过一种独特的“后训练”流程,成功消除了传统AI图像中常见的“AI感”,实现了照片级的真实感。核心训练方法包括两个阶段:首先,通过监督微调(SFT),让模型在一个由人类精心挑选的高质量图像数据集上进行“再学习”,奠定其美学基础;然后,通过人类反馈强化学习(RLHF),让模型从人类对生成图像的偏好排序中学习,进一步精细化其审美品味。整个过程让AI生成的图像看起来不再像AI生成的,是更加自然、真实,富有艺术感。
FLUX.1-Krea [dev] 模型训练揭秘:如何打造照片级真实感
核心目标:破除“AI感”,追求自然美学
核心目标在于彻底破除“AI感”,追求一种前所未有的照片级真实感和自然美学。模型由 Black Forest Labs 与 Krea AI 联合开发,通过创新的训练方法,让AI生成的图像在视觉上更加逼真、在审美上更加贴近人类的偏好,重新定义AI图像生成的标准。
FLUX.1-Krea [dev] 的使命
“让AI生成的图像看起来不再像AI生成的,而是达到照片级的真实感和细腻质感。”
“AI感”的定义与表现
“AI感”并非一个单一的技术缺陷,是一系列视觉特征的综合体现,这些特征共同构成了AI生成图像的独特印记。根据Krea AI官方发布的技术报告,这些特征主要包括过度饱和的色彩、不自然的光影与背景虚化,以及塑料感的材质与纹理。问题的根源在于,许多模型在训练过程中过度追求技术指标和基准测试的优化,忽略了真实世界图像的复杂性和多样性。
- 过度饱和的色彩:过度饱和的色彩是“AI感”最直观的表现之一。许多AI模型在生成图像时,为了吸引眼球,会倾向于使用比现实世界更加鲜艳、浓烈的色彩。这种处理方式虽然在某些情况下能够创造出梦幻或超现实的视觉效果,但在追求照片级真实感的场景下,却显得尤为突兀。例如,天空的蓝色可能会变得过于纯净,草地的绿色可能会显得过于鲜亮,人物的皮肤色调也可能失去自然的红润,呈现出一种不健康的蜡黄或苍白。这种色彩的失真,不仅破坏了图像的真实感,也让整个画面显得过于“完美”,从而暴露了AI生成的痕迹。
FLUX.1-Krea [dev] 的训练目标之一,就是通过精细的色彩调校,让生成的图像色彩丰富而和谐,避免出现颜色过度饱和或不协调的情况,从而更接近真实世界的视觉体验。
- 不自然的光影与背景虚化:光影是塑造图像立体感和氛围感的关键元素,而“AI感”在光影处理上往往显得力不从心。AI生成的图像常常出现光影过渡不自然、高光过曝、阴影死黑等问题。例如,光源的方向和强度可能不一致,导致物体的投影出现逻辑错误;或者为了突出主体,背景被过度虚化,形成一种不真实的景深效果,这种虚化往往缺乏真实相机镜头下的光学特性,显得过于平滑和均匀。金属、玻璃等反光材质的处理也常常出现问题,反光效果往往是固定的、不随环境变化的,缺乏真实世界的复杂性和动态感。
FLUX.1-Krea [dev] 通过引入高质量的真实光影数据进行训练,应用先进的算法,力求让光与影的过渡自然流畅,避免生硬的边缘和不自然的高光,营造出更加真实、富有层次感的画面。
- 塑料感的材质与纹理:材质和纹理的真实感是决定图像逼真度的另一个重要因素。许多AI模型在生成物体表面时,会呈现出一种“塑料感”或“蜡感”,缺乏真实材质的细腻纹理和质感。例如,人物的皮肤可能看起来过于光滑,没有毛孔、细纹等真实肌肤的纹理;衣物的布料可能缺乏纤维的质感,看起来像是塑料或橡胶制成的;木材、石材等天然材质的表面也可能失去其独特的纹理和瑕疵,显得过于完美和人工化。这种材质上的失真,使得物体看起来像是玩具模型,而非真实世界中的物品。
FLUX.1-Krea [dev] 的训练过程特别注重对真实材质和纹理的学习,通过精细化的数据筛选和模型优化,力求还原出肌肤的真实纹理、布料的柔软质感以及各种天然材质的独特细节,消除这种“塑料感”。
技术深度:两大核心训练方法
FLUX.1-Krea [dev] 采用了两项先进的后训练技术:监督微调(Supervised Fine-Tuning, SFT)和人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)。这两项技术相辅相成,共同构成了FLUX.1-Krea [dev] 精细化打磨的核心。
监督微调 (Supervised Fine-Tuning, SFT)
监督微调(SFT)是FLUX.1-Krea [dev] 后训练流程的第一阶段,也是塑造其美学倾向的基础。与预训练阶段在海量、多样化的数据上进行广泛学习不同,SFT阶段的核心在于“精”而非“多”。开发团队精心挑选了一个规模相对较小但质量极高的图像数据集,数据集里的每一张图像都经过了严格的筛选,确保其在光影、色彩、构图、细节等方面都达到了极高的审美标准。通过让模型在这个高质量数据集上进行微调,可以有效地引导模型学习并模仿这些“好”的图像特征,摆脱预训练阶段可能存在的各种“坏”习惯,例如生成模糊、失真或风格不统一的图像。这个过程就像是让一位已经掌握了基本绘画技巧的学徒,去临摹大师的作品,快速提升其艺术造诣和审美水平。
在高质量数据上再学习
SFT的目的,通过一个精心策划的“小灶”,来纠正模型在预训练阶段可能形成的各种偏差,为其注入特定的美学品味。在FLUX.1-Krea [dev] 的训练中,开发团队手工筛选了符合其审美标准的高质量图像数据集,这些图像在细腻程度、光影效果、构图比例等方面都堪称典范。模型通过在这些“教科书”级别的图像上进行学习,能逐步内化这些优秀的视觉特征,在后续的生成过程中,能更稳定、更可靠地输出具有照片级真实感和自然美感的图像。
无分类器引导 (Classifier-Free Guidance, CFG) 的应用
在SFT阶段,FLUX.1-Krea [dev] 的训练还引入了一项关键技术:无分类器引导(Classifier-Free Guidance, CFG)。CFG是一种在扩散模型中广泛使用的技术,主要作用是提升生成图像与文本提示之间的相关性,让模型能更准确地理解并执行用户的指令。
- CFG的作用:提升生成图像与文本提示的相关性,无分类器引导(CFG)的核心作用,在于增强扩散模型对文本提示的理解和执行能力。在标准的扩散模型中,生成过程主要依赖于一个去噪网络,该网络根据当前的噪声图像和文本提示来预测并去除噪声。在某些情况下,模型可能会忽略文本提示,生成与描述不符的图像。CFG通过引入一个“无条件”的生成路径(即不输入文本提示),将其与“有条件”的生成路径(即输入文本提示)进行对比,来引导模型更加关注文本提示中的信息。具体来说,CFG会计算有条件和无条件生成结果的差异,将这个差异作为额外的引导信号,来修正去噪过程。通过调整CFG的尺度(guidance scale),用户可以控制模型对文本提示的遵循程度。一个较高的CFG尺度会让模型更严格地遵循文本提示,但可能会导致图像质量下降;而一个较低的CFG尺度则会让模型有更大的创作自由度,但可能会偏离文本描述。
FLUX.1-Krea [dev] 通过在CFG分布上进行微调,找到一个最佳的平衡点,既能保证生成图像的高质量,又能确保其与用户的文本提示高度相关。
- 自定义损失函数:直接在CFG分布上进行微调,由于FLUX.1-Krea [dev] 的基础模型 flux-dev-raw 是一个经过“引导式蒸馏”的模型,其内部已经包含了CFG的机制,因此传统的微调方法可能无法直接适用。为了在微调过程中充分利用并进一步优化这一特性,开发团队设计了一种自定义的损失函数,使其能够直接在CFG的分布上进行训练。这个自定义损失函数的设计,是FLUX.1-Krea [dev] 训练过程中的一项技术创新。它允许模型在SFT阶段,不仅学习高质量图像的美学特征,还能同时学习如何在CFG的框架下更好地生成图像。这意味着,模型在微调过程中,每一步的优化都直接作用于最终的、经过CFG引导的生成结果,从而使得微调的效果更加直接和显著。这种方法不仅提升了模型的美学表现,也增强了其遵循文本提示的鲁棒性,为后续的RLHF阶段打下了坚实的基础。
人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)
人类反馈强化学习(RLHF)阶段是为其注入了灵魂,让模型真正学会了“审美”。RLHF是一种先进的机器学习范式,将人类的判断和偏好直接融入到模型的训练过程中。在RLHF阶段,开发团队不再仅仅依赖于静态的数据集,而是引入了一个动态的、由人类参与的反馈循环。他们邀请专业的标注团队,对模型生成的多张图像进行两两比较,选出他们认为更符合审美标准的那一张。这些由人类做出的偏好选择,被用来构建一个奖励模型(reward model),这个奖励模型能预测什么样的图像更可能获得人类的青睐。
FLUX.1-Krea [dev] 模型通过强化学习算法,不断地调整其生成策略,以最大化奖励模型给出的分数。通过多轮这样的迭代优化,模型逐渐学会了如何生成更符合人类审美偏好的图像,在真实感和美感上达到了新的高度。
让人类参与教学:在RLHF的训练流程中,人类扮演着“老师”的角色,通过提供反馈来“教”模型什么是好的,什么是坏的。具体来说:
- 首先,从一个预训练好的模型(如经过SFT的FLUX.1-Krea [dev])开始,生成一批不同的图像;
- 然后,将这些图像成对地展示给人类标注员,让他们根据自己的审美偏好进行选择;
- 接着,利用这些带有偏好标签的数据,训练一个奖励模型,模型能学习预测人类对不同图像的偏好程度;
- 最后,使用强化学习算法(如PPO),根据奖励模型的反馈来更新生成模型的参数,生成更符合人类偏好的图像。
通过多轮这样的迭代,模型能逐步内化人类的审美标准,在生成图像时做出更明智、更符合人类期望的选择。
调优偏好优化 (Tuned Preference Optimization, TPO)
TPO是RLHF框架下的一种具体实现,目标是进一步提升模型的审美质量和风格化表现。与标准的RLHF方法相比,TPO可能在奖励模型的设计、强化学习算法的选择或优化目标的设定上进行了特定的调整和优化,以更好地适应图像生成这一特定任务。通过应用TPO技术,FLUX.1-Krea [dev] 能更有效地利用人类反馈数据,在美学表现上实现更精细的提升。开发团队强调,他们使用的是高质量的内部偏好数据,并且会进行多轮的偏好优化,确保模型能稳定地生成具有高度审美价值的图像。
- TPO的作用:进一步提升模型的审美与风格化,在经过SFT阶段后,模型已经具备了生成高质量图像的基础能力,但其在美学上的“品味”可能还不够稳定和成熟。TPO通过引入人类的偏好数据,对模型的生成结果进行精细的“雕琢”。具体来说,TPO技术能帮助模型更好地理解人类在光影、色彩、构图、细节等方面的细微偏好。例如,人类标注员可能更喜欢光影过渡柔和、色彩和谐自然的图像,而不喜欢那些对比度过高、色彩过于艳丽的图像。通过TPO的优化,模型能学会抑制生成那些不符合人类偏好的图像,更多地生成那些符合人类审美的图像。TPO有助于提升模型的风格化能力,让模型能更好地理解和生成具有特定艺术风格(如油画、水彩、摄影等)的图像,满足用户更多样化的创作需求。
- 多轮偏好优化:细化模型输出的风格与品质,为了确保FLUX.1-Krea [dev] 能达到极致的审美水准,开发团队在RLHF阶段采用了多轮偏好优化的策略。意味着,RLHF过程并非一次性完成,是会进行多次的迭代。在每一轮优化中,团队都会收集新的偏好数据,并更新奖励模型和生成模型。这种多轮优化的方式,能让模型逐步地、渐进地提升其美学表现。每一轮优化都像是给模型进行一次“微调”,使在风格化的表现上更加细腻,在品质的把控上更加稳定。通过多轮的迭代,模型能不断地从人类的反馈中学习,逐步纠正其在生成过程中可能出现的各种细微瑕疵,最终达到一个非常高的审美水平。这种精益求精的训练方式,是FLUX.1-Krea [dev] 能在众多AI图像生成模型中脱颖而出的关键所在。
训练流程:从预训练到后训练的精细化打磨
预训练阶段:打下坚实基础
预训练阶段是FLUX.1-Krea [dev] 整个训练流程的基石。在这一阶段,模型需要在一个极其庞大的、未经筛选的图像数据集上进行训练。这个数据集可能包含了从互联网上抓取的各种图像,涵盖了不同的主题、风格、分辨率和质量。通过在如此海量的数据上进行学习,模型能建立起对视觉世界的全面认知。会学习到各种物体的形状、颜色、纹理,理解不同场景的布局和光影关系,甚掌握一些基本的艺术风格和构图规律。
预训练阶段的目标,是让模型具备强大的泛化能力,即能理解和生成其从未见过的、全新的图像内容。
后训练阶段:塑造独特美学
在这一阶段,开发团队的重点不再是让模型学习更多的知识,而是调整并去除数据分布中不理想的部分,引导模型偏向他们认为“理想”的审美区域。这个过程被称为“模式收缩”(mode collapse),但它在这里被有意识地、可控地应用,以达到提升美学质量的目的。
后训练阶段主要包括两个核心步骤:监督微调(SFT)和人类反馈强化学习(RLHF)。通过这两个步骤的协同作用,模型逐渐摆脱了预训练阶段可能存在的各种“坏”习惯,例如生成模糊、失真或风格不统一的图像,最终形成了稳定、高质量的美学输出能力。
应用场景:赋能创意产业与个人创作
概念设计与广告宣传:在广告和营销领域,快速生成高质量的概念图和视觉素材至关重要。FLUX.1-Krea [dev] 能根据简单的文本描述,迅速生成多种风格和构图的图像,为创意团队提供丰富的灵感来源。
生成逼真的场景、角色与道具:在游戏开发中,创建逼真的场景、角色和道具是一项耗时耗力的工作。FLUX.1-Krea [dev] 可以作为游戏美术师的得力助手,快速生成各种风格的场景概念图、角色设计稿和道具模型贴图。
特效制作与预览设计:在影视特效制作中,FLUX.1-Krea [dev] 可以用于生成特效预览(Pre-vis),帮助导演和特效师在拍摄前就对最终的视觉效果有一个清晰的认识。可以用于生成一些简单的特效元素,如烟雾、火焰、魔法光效等,作为后期合成的素材。
为设计师提供高质量素材:对于UI/UX设计师、平面设计师等,FLUX.1-Krea [dev] 也是一个非常实用的工具。他们可以利用该模型快速生成图标、插图、背景纹理等设计元素,作为自己设计的参考或直接素材。