随着AI技术的不断发展,绘画这类拥有美感、情感的文艺作品也逐渐出现了AI的身影。从提升工作效率的角度,AI绘画产品确实有它的作用。但要真正实现商业化,AI绘画产品还有很长一段路要走。

只需要一句“咒语“就能生成一张质量比大多数人水平高的图像内容。这种技术上的变革对图像内容创作领域可以说是颠覆式的改变。不仅可以帮助画家创作出更加出色的作品,还能够帮助普通人轻松地创作出高质量的画作。

绘画对于我来说一点也不陌生,高中学了3年美术和大学4年工业设计,如果当时有AI绘画,不知道什么感想,至少当时还是很享受绘画的过程,从结果上可能并没有AI的效果好,也分享几张高中时期我的作品,大学时期的一些汽车手绘稿一时没找到。

那我现在的角色变成一名产品经理,对AI绘画产品很感兴趣,有必要全面去解析下,我会从产品价值、使用场景、产品现状、商业机会以及制约因素去分析:

  • AI绘画解决了什么问题带来什么价值?
  • AI绘画在艺术设计领域的应用场景?
  • AI绘画目前产品形态和发展现状?
  • AI绘画的商业机会有哪些和制约因素?
  • 一、AI绘画解决什么问题带来什么价值?

    1. 图像生成门槛降低,效率的提升,促使图像生成“平民化”

    AI绘画的产物是图像,图像对人类具有丰富的价值,包括信息传达、创意表达、历史记录、美感享受和交流沟通等方面,对于人类的认知、情感和文化发展起着重要作用。

    而绘画工具从原始的纸笔调色盘到数字化时代的数位板、绘图软件再到AI时代,任何人用简单的几行文字就能创作出高质量的艺术作品,人类创作的门槛一再被降低,促使图像生成“平民化”,图像生成的生产力得到指数级的提升。

    2. 图像品质的提升和激发创作灵感,让生活充满设计感

    AI对大量的绘画作品进行学习、融合和再塑,且一直处于不断进化的阶段,生成的图像质量比绝大数初级创作者水平要高,对低端生成市场会进一步淘汰,迫使创作者不得不通过学习AI绘画技术,更好地运用AI技术来创作更加出色的作品,使自己的作品更具创意和价值。另一方面对于内容消费来说,审美需求也在提升,追求丰富高品质的视觉体验。

    AI绘画为我们未来的生活带来了充满设计感的视觉盛宴,美无处不在。

    3. 个性化的定制能力的提高,做到千人千图

    用户可以根据自己的需求和喜好,够帮助人们快速生成各种风格的图像,定制出更符合个性化要求的图像作品,未来能直接链接生产端进行生产。

    例如,在服装设计行业中,AI绘画技术可以用来快速生成各种样式的服装图案,这些图案可以基于不同的主题、风格、颜色、材质等因素进行定制。

    AI绘画在艺术设计领域的应用场景?

    可以通过的双钻设计模型来分析AI绘画对不同阶段的作用,双钻模型适合所有的设计领域,形成了标准流程,只要设计过程中有图像的地方都可以使用AI辅助设计。

  • 第一阶段——发现期。 此阶段可以通过ChatGPT去做些资料收集、竞品分析,提炼需求的关键词。可以提供一些参照图生关键词,有助于对需求达成共识和效率提升。
  • 第二个阶段是——定义期。 此阶段AI绘画可以通过生成各种风格和风格组合的图像,为设计师提供创意的灵感来源,通过直观的图像辅助明确设计方向。
  • 第三阶段是——发展期。 此步是真正开展设计创意了,这个阶段我们要把问题具体化,通过AI图像工具快速生成多种效果方案。
  • 第四阶段是——交付期。 选择某种方案进行深化,此阶段目前Ai的编辑能力还相对较弱,但也是可以使用AI绘画的控制技术针对性的调整,如现在的ControlNet 技术和图像编辑工具。
  • 总的来说,AI绘画可以在创作设计的各个环节为设计师提供更多的可能性和创意空间,提高设计效率和质量。

    作为工业设计专业出生,从工业设计的视角聊下AI在哪些流程场景中辅助设计。

    对于工业设计目前主要在概念设计上进行辅助设计,根据功能需求和风格方向来输出效果图,设计师设计习惯得不同或产品属性的不同,会选择直接通过AI绘画工具直接生成概念效果图,或先输出草图在通过AI绘画工具输出概念效果图。

    要生成大概率符合自己预期的效果图,要具备上至少这两种能力:

  • 念“咒语”的能力
  • 工具的控制能力
  • “咒语”能力体现的是设计师本身的设计经验、想法、思维,也是最能体现设计师的价值,在AI代替出图环节,也是最能体现设计师之间的差距。

    在此之后需要总结一套自己念“咒语”结构化语言,便于更好的与AI交互,让AI懂你。在工业设计领域会总结一套专用的 prompt。

    对于艺术创作,更多是表达个人想法和灵感,而艺术设计更多是解决具体的问题再是风格的追求,对绘画工具可控性要求会更高。

    设计会选择Stable Diffusion通过LORA控制风格和 ControlNet 来控制局部细节。(一些设计师会结合MJ和SD共同出图)

    训练LORA的目的是让AI理解抽象的风格,例如科技感的、女性化的、极简的,对于人类来说都是感性词汇。可以用LORA去训练,同一风格系列作品、同一类目、不同风格作品、同一类目同一风格作品,单个产品对象,不同类目不同风格,这是目前MJ上没有的功能。

    ControlNet根据边缘检测、草图处理等各种条件来进一步控制图像生成和细化细节。

    跟一些在做工业设计的同学交流了下AI的使用体验,整体来看AI在工业产品设计场景中还比较初级的辅助阶段,想要达到满意的作品还是有一定的差距,要花很多时间去学习工具和训练模型,后期还需要大量人工修改,工具上还有很大的改进空间。

    想要真正能作为设计师的创意、效率工具,还是需要针对细分领域根据行业know how深化产品能力,同时应用场景还需要进行拓展,不仅仅是出图的工具,如果3D模型技术成熟会进一步提升创意的效率,让设计师把精力去研究用户和发挥灵感创意,减少重复性、技巧性的工作,使设计真正回归到本质。

    二、AI绘画目前产品形态和发展现状?

    AI绘画的大模型和应用非常多,但最有名的非Midjourney和Stable Diffusion莫属,只需要键入简单的语言描述,只需短短几分钟,便可生成画作,那从以下几个方面了解下AI绘画产品形态和市场表现:

  • AI绘画产品生态体系结构?
  • 国内AI绘画的产品都有什么功能,之间的差异有什么差异?
  • AI 绘画产品用户关注哪些方面的需求?
  • AI 绘画产品商业模式,用户是否愿意买单?
  • 模型层:基础模型上目前主要还是以外国模型表现出色,Stable Diffusion的开源使得模型训练门槛的降低涌现了大量的AI绘画产品,促进图像生成技术有更多的创意和场景落地。闭源模型以Midjourney为代表,同时将模型直接部署在Discord社交平台,提供直接的应用,操作简单,图片效果惊艳。

    平台/工具层:闭源模型厂商基于平台提供API接口给下游客户,例如客户在自己应用上调用MidjourneyAPI。如果API无法满足的情况一些厂家也提供模型训练工具,例如百度的文心千帆平台提供数据处理、模型开发、模型部署一站式模型开发。

    应用层:国内大多数AI绘画产品都是基于Stable Diffusion模型开发,看到更多的是艺术创意类产品,生成一些艺术绘画、二元次漫画等,例如6pen Art,画宇宙;领域设计类目前处于往定制化项目路线较多,例如,Tiamat为设计领域提供定制化模型服务。

    模型将成为应用的基础设施,科技公司将具有革命性的模型,对外开源和提供API服务,创业公司可以根据自身需求研发或调用大模型API,专注打磨应用和服务客户。

    国内AI绘画的产品都有什么功能,之间的有什么差异?

    通过体验Midjourney以及国内多个知名A绘画产品,在功能体验上个人总结两个类别,类似手机操作系统,Midjourney类似苹果和以Stable Diffusion为基础开发的安卓类。

    功能上Midjourney的功能操作极其简单,主要通过描述关键词来生成创意作品,注重创意本身,国内大多数应用基于Stable Diffusion模型开发,功能可控性比较丰富,可以选择不同模型,包括可调用MidjourneyAPI和自研模型等,甚至可以去通过小数据训练风格模型。

    国内的AI绘画产品技术层面上,各个产品之间并不存在过多差异,无非就是功能层面的丰富度有所差别,但有些公司会在开源模型上自研模型有一些小的差异,例如像6pen art 训练的南瓜模型。

    效果上Midjourney整体上效果更惊艳画质更细腻,Stable Diffusion类就要看模型的选择,通用模型生成的图片质量就一般。

    生成图片的质量主要取决于模型的质量,而模型的质量又主要取决于训练集的质量。Midjourney的审美倾向是背后团队筛选出来的,产生内容下限高平均审美在线以及闭源形成的数据闭环。Stable Diffusion开源让用户自己训练符合自己个性化的风格模型,效果取决用户训练模型的水平。

    Midjourney团队成员只有11人,却成为AI绘画领域的“当红明星”,在国内是否能成功复制?

    目前国内还没有照抄MJ的,MJ那么难模仿的关键因素有哪些?

  • 公司的愿景和创始人的人格魅力
  • 技术顶流,出图效果出色,操作简单
  • 开发社区,激发创意之泉
  • 火爆出圈,吸引大批高质量创造者
  • 可见MJ的成功因素非常多尤其是在模型能力快速的优化和高质量的数据积累构建了核心的壁垒,短期是很难去超越MJ。

    如何评价AI绘画产品的图像生成能力的差异?

    图像生成模型的关键能力包括图像质量、图像多样性,以及图像稳定性和可控性,这些能力决定了模型在应用表现上的差异。

    不同行业不同场景下的使用者对图像生成能力的要求会存在一定的差别,例如艺术创作者与设计者,艺术创作者更注重图片的美感,设计者更倾向图片的合理性是否接近可落地效果;普通用户对可控性的要求相对比设计从业者低。

    1)图像质量

    什么是好的图像质量?

    黑格尔在《美学》里总结道“美是感性理念的显现”,美的规律一般是”和谐的、对称的、有规律的”,美并非是绝对的感性,而是理性的理性。

    那么衡量图片的理性维度可以是,构图合理,构图的合理是一张图画最基本的美学要求。符合逻辑,生成的图像的整体表达能够符合现实世界的基本逻辑,以及轮廓清晰、精细细节、惊艳的色彩搭配。

    2)图像多样性

    视觉元素、内容风格、创造性具有多样的表现。

    用同相同的关键词,生成不同的图像视觉内容的形状、颜色、外观呈现多样性,如果生成的图像相似性较高,缺乏多样性,那么模型的多样性较低。

    可生成不同的主题、场景、对象的风格,只能生成特定类型的图像,那么模型的多样性较低。

    模型生成的图像是否具有创造性,能够产生独特且令人惊喜的图像。模型生成的图像在创造性和新颖性方面欠缺,那么模型的多样性同样受限。

    3)图像稳定性

    避免出现模糊、伪影、重复、不自然等问题,不过现在生成图像模型基本都是Diffusion模型,稳定性上有较好的表现,能够在存在干扰的情况下仍然生成高质量的图像。

    4)图像可控性

    图像可控性是使用者能够对生成图像进行细节控制和后续调整,例如图像的颜色、形状、纹理以及生成的物体数量等。可控性是图像生成产品实现成熟商业化的前提。

    普通者是否能通过文字描述来控制修改局部细节,设计者对图像可控性的要求更高,包括能否进行全景控制、精确区域控制、任意细节控制等。

    AI绘画产品当下有哪些变现手段?

    大多数AI绘画产品要么是充值、按月、按数量或定制模型收费,变现模式相对比较简单和容易理解,也是现有商业化软件常用见得变现手段。

    5)充值消耗积分

    充值多少送多少积分,根据生成图片数量、选择模式、生成速度来扣去积分。新用户首次使用会赠送一定的积分数,想持续使用或有更高阶需求就要再额外充值。

    6)软件按月收费

    每个月的价格不同,功能权限范围不同,典型代表就是Midjourney,10/30/60美元每个月生成的数量和权益有所不同,以有1亿美元的收入。

    7)按照输出图像数量收费

    不同价格输出的图像数量不同,例如国外avatar AI 、Lensa 、国内的美图,支付多少钱后生成十到几十张头像图片,供用户选择和使用。

    8)模型训练费

    这种模式主要是面向B端客户,AI绘画产品公司为有定制化模型需求的客户提供模型训练,从而收取模型训练费。Stable Diffusion 一项收益就是为客户提供模型训练服务,国内的Tiamat的主要收益还是B端,据采访信息去年Q4,有几百万元的合同订单。

    对于变现能力来说大多数产品目前是无法盈利的。

    根据6Pen的调查,60% 的用户并没有在使用AI绘图产品上有过付费行为,也就是完全免费在使用,剩下40% 的付费用户中,16% 付费在 10 元以内,14% 在100元以内,付费超过 100 元的不到 10%,我自己也只是购买了Midjourney账号,其他产品还没有让我产生购买的理由。

    主要的原因:

    1)使用群体有限,还不是真正的“平民化”产品

    虽然AI绘画产品只需要输入一句话就能生成图像,但对于用户来说需要有明确目的和技巧才能生成好的图像,目前还不是人人都是设计创作者。

    现在大部分还是设计师、内容创作者、绘画人员使用较多,普通用户最多是体验下新鲜感,大多也就是免费尝试。

    2)产品能力还有待提高,用户认知还处于尝鲜阶段,无法直接带来商业转化

    根据6Pen问卷调查显示,42% 的用户认为 AI 绘画单纯只能满足娱乐需求,38% 的用户认为AI绘画可以部分运用到工作之中,9.17% 的用户认为AI绘画具有颠覆性,与此同时,也有 7% 的用户认为这根本不值一提。

    3)Midjourney的效果出众和Stable Diffusion的开源

    Midjourney吸引大量国内优质用户使用,会进一步分享传播,国内产品只能抢占哪些无法科学上网的用户,同时Stable Diffusion的免费和开源,进一步将模型训练的成本降低,用户额外花钱的意愿降低。

    三、AI绘画的商业机会有哪些和制约因素?

    现有的内容创作关键因素和之间关系

    从第一性原理视角去思考内容创作的关键要素有哪些?基本要素为创作者、作品、消费者,创作者通过创作工具生产内容作品。

    创作工具从最早的从原始的纸笔调色盘到数字化时代的数位板、绘图软件再到现在的AI。

    有了作品就要通过传播媒介给到消费者进行消费才能产生价值,传播媒介从线下到线上,到更加精准和高效发展。

    消费者对作品满意有价值会成为创作者的粉丝,对创作者持续关注,从而产生更多内容作品。

    每个链接点都可以产生商业化价值。

    以消费者为核心,以作品的数字化为基础的消费互联网的大公司,在“传播媒介”和“占有成本”上面做变革的起点,比如搜索、短视频、网购等,再往“创作工具”和“名人/粉丝效应”上延展,比如抖音做的“剪映”视频工具,培育网红、直播带货等。

    以创作者为核心的为创作者提供软件工具的企业服务公司,在“创作工具”上面做深做透,帮助创作者提升“生产效率”(降本)或者提升“作品效果天花板”(增效),帮助创作者挣更多钱,从而使得创作者愿意花钱来购买相关的2B产品和服务。

    新技术对关键因素带来哪些改变?

    以上是现有内容创作产业结构,那新的技术出现上面的结构会发展怎样的变化。

    图像生成技术突破了只有人类才能生产内容的特权。

    创作者可以借助AI进一步提升生产效率,这种效率的提升至指数级的,是从无到有。

    消费者也能使用Ai较轻松就能生产高水平的作品,不用完全依赖专业人士,自己创作自己消费。

    对于为B端创作者提供软件工具的企业服务将会迎来新的变革,上一轮“云端协作”给软件带了新的机会,诞生了一批新的在线软件公司,例如蓝湖、墨刀、Figma、Airtable,从传统大牌软件公司中分一杯羹。

    以Ai为主的2B软件工具将会再一次迎来爆发,会有很多针对垂直领域的Ai软件,面对不同设计领域。但要成功突围成品爆品难度也是相当的大,不能只是简单的单业务图像生成能力,需要融入到整个创作的过程中,从前期调研、需求沟通、方案设计、方案展示、方案落地、协调沟通,以及二维到三维,否则很容易被Midjourney和Stable Diffusion给击垮。

    需要考验玩家的场景结合能力、高质量的数据和行业专业知识的理解能力,给垂直行业找到AI的最佳实践方式才可能成功。

    现有的软件也将会拥抱AI,将AI能力接入到现有的功能中,Adobe 发布 AI工具 Firefly,计划将AICG完整融入到现有的软件中,包括 Photoshop、Illustrator、 Adobe Express等工具。

    短期内AI结合软件工具能提供较大价值,但长期来看会很残酷,只有少数玩家能幸存。

    当AI的生产能力都能让消费者生产符合自己的设计作品,那么会对挤压创作者的生存空间,不需要那么多软件工具了。

    那么直接面向消费者的AI生产应用将会有更广阔的市场空间。

    对于以C端为核心的视角去结合图像生成技术,可以从两个方面挖掘应用场景,效率工具和创作工具

    以效率工具切入需要生成的内容可以转成个人经济的收益。

    效率工具相对相对创作工具来说,需求和生成的要求会比较明确,与个人的经济收益有关的,Ai可以作为一个很好的生产力工具,例如在logo设计、商品图片设计等,并且是可以为用户带来直接商业化转化的价值。

    现在大量的AI绘画产品用户还处于尝鲜阶段,只是为了获取简单、直接的感官体验,未能融合到用户的工作和生活中,更重要的原因未能构建好的应用场景。

    有一个非常有价值的案例:PhotoRoom。

    服务于二手电商卖家,去掉图片背景,并增加各种细分电商应用场景所需的背景和效果,不仅节省时间,更重要是能提升商品的转化率。

    PhotoRoom 提供的背景都是各种具体的商业应用场景,不同的社交媒体和电商平台都会有不同的销售文案的图片以及各类风格类型模版,目前各种模版已经超过了 1000,基本上你只要找到自己平台场景的背景图片就可以直接挂上去卖了,整个优化生成的图片非常的有专业设计感,并且操作真的是非常简单。

    目前 PhotoRoom 已经被下载了 4000 万次,月活用户 MAU 达到了 700 万,订阅用户则达到了几十万,每天处理的图片达到了 300 多万张。

    另一种是以创作工具切入应用场景,激发用户个人创意、满足娱乐化、个性化的情感需求,提供一种全新的“内容创作体验”。

    相对效率工具,对生产的图片要求相对比较开放一些,追求的是感知效果。

    Midjourney定义为人类创意引擎,扩展人类的想象力,产品形态上简单易上手,只需要输入命令提示符,就可以生成对应的高品质图形,让人感觉不可思议的力量,激发人类创新想象的动力。

    但对于普通用户来讲,要创作一张高质量的图片还是有一定门槛,首先需要有明确的使用场景需求,不然无从下手,其次你需要具备一定审美能力,知道不同风格,什么是一张好的有创意图,最后你要会精准的表达,让计算机理解你的需求。

    以具体场景化来去驱动用户的创作动力,会形成一定优势和机会点。

    举个案例,头像风格化生成——Lensa AI。

    用户上传10-20张自拍照,能生成50~200张不同风格的AI自画像或头像,切中头像生成细分场景,契合不同的方式表达自我的需求,对用户心理的洞察和深入挖掘,让已经厌倦发普通自拍的用户获得一种新的表达方式。

    在去年12月份的时候在一众面向C端的AIGC产品中尤为突出,5年内创造了预估820万美元的收入。

    同样以头像生成的有AvatarAI、国内的美图的头像生成。

    虽然大家会担心像昔日的脸萌,只是短期的赚钱工具,但并不影响我们去分析如何抓住用户细分场景需求和兴趣,通过新的技术方式为用户提供更新奇、更能激发自我表达和传播的方式,满足满足娱乐化、个性化的情感需求。

    总的来说,对于toC场景,要切细化场景和用户,激发用户创作的动力,动力的来源要么是带来提升收益的转化,要么是满足的用户的某种情感的需求,得到了新的体验价值。同时要求在产品上需要足够简单,可以基于细分场景提供丰富的选择和联想能力,把创作门槛变得足够低。

    四、图像生成商业化落地挑战?

    1. 技术壁垒的挑战

    开源使AI绘画产品的技术壁垒越来越低,投机者可以用很低的成本来追逐风口,在一定程度上造成商业上的混乱,这也是图像生成领域当前不被那么VC看好的原因,在国内能拿到融资的局指可数。

    想通过单点工具在该领域有独立的生存空间并产生持续的现金流,就需要在某领域有自己的独特数据,另外,提供的产品或者服务是巨头不具备的API。

    2. 数据能力的挑战

    图像生成的效果很大程度依赖于训练数据的规模和数据质量,图像生成产品在向细分行业和场景深入时,需要考虑存在的数据壁垒、数据量不足、数据质量不高等问题。

    在模型训练阶段,可以通过数据增强策略、利用合成数据预训练等方式进行优化,提升下游任务的性能。

    在应用阶段,结合用户所输入的提示词(prompt)、生成图像选择等进行交互行为和偏好分析,利用数据沉淀数据资产,有针对性的进行模型迭代。

    3. 产品化能力的挑战

    现在想要生成一张符合预期的图片目前还是有一定门槛和时间成本,可能需要不断尝试不同的prompt和大量挑选过程。

    除了要去优化模型本身的性能外,可以从产品场景引导和交互层面去降低门槛、更高效生成符合预期的图像。

    对于用户不是很知道要什么情况下或者说生成后有什么作用,那么可以通过细分具体场景来引导用户,例如儿童绘本场景,可制作关于自己孩子的一些绘本故事,那这个场景下可以教用户如何去构建故事脚本,具体如何生成,可浏览其他优质绘本作品,也可进行二次生成等一系列的引导,只有让用户知道具体价值才会去使用。

    模型对于prompt的理解和运用非常关键,输入简单的prompt可进一步给用户完善更丰富和精准,在此基础上,在用户意图的基础上进行扩展,生成超越预期的高质量图像。

    4. 版权方面的挑战

    AI在模型使用的训练数据包含明显受到版权保护的视觉素材。Stable Diffusion训练数据集来自LAION-58,而LAION-58包含50多亿图片以及匹配的文本标注,其中涉及大量受版权保护的内容。

    同时,用户在使用AI绘画的工程也会大量参照现实艺术家或创作者的作品,直接加入艺术家的名字,这种行为容易造成内容版权风险。

    涉及的版权问题同样可以通过数字技术来解决,可以尝试将画家的作品上传到区块链中,从而加强技术溯源能力。

    5. 理论与安全风的挑战

    由于AI本身还不具备价值判断能力,为此一些平台进行理论方面的限制和干预,禁止用户输入敏感关键词语。对于输出的数据进行筛选,移除包含明显暴力、色黄犯法恶劣的内容图片,还采用人工审查员检测被标记为可能有问题的图像。

    以上内容是我个人对图像生成领域商业化部分的学习梳理和浅显的思考,接下来还会持续输出一些图像领域相关的文章内容。

    作者:Rzhiyi,8年产品经理经验,做过AI皮肤检测系统和SaaS类产品

    本文由@Rzhiyi 原创发布于人人都是产品经理。未经许可,禁止转载。

    题图来自 Unsplash,基于 CC0 协议

    该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。提供信息存储空间服务。