最近的 AIGC 有多火,你不会不知道吧?

AI绘画收到越来越多关注的同时,你想不想自己试试?如何基于开源项目训练自己的趣味模型,开源出来被更多人看到?

在这个人人都是创作家的时代,你可以脑洞大开,以图生图,画你所想!

2023 PaddlePaddle Hackathon 飞桨黑客马拉松第四期 AIGC 趣味创意赛 来袭,为期三个月的线上编程马拉松活动启动,参赛选手可以使用扩散模型,结合 LoRA、DreamBooth 等技术实现自己的无限创意。

我们将颁发一等奖2名、二等奖5名、三等奖20名,参与奖不限,鼓励你提交尽可能多的创意项目!让你在体验AI绘画的同时,学技术,赢大奖。

本赛题由飞桨、Hugging Face 联合推出。Hugging Face 是当前全球最受欢迎的开源机器学习社区和平台之一,致力于成为机器学习界的 GitHub。其旗下的 Hugging Face Hub 托管了超过 140,000 个预训练模型和 10,000 个数据集,涉及自然语言处理、计算机视觉、语音、时间序列、强化学习等多个领域。

飞桨携手 Hugging Face 共建开源生态,让开发者能够更方便地基于飞桨框架使用 Hugging Face 生态的优秀模型。在 AIGC 方向,目前飞桨自然语言处理模型库 PaddleNLP 和多模态扩散模型库 PPDiffusers 已经完成了与 Hugging Face Hub 的生态兼容,支持一行代码实现 Hugging Face Hub 模型加载与上传、快速 Demo 体验、推理服务 API 等功能。

快来看看怎么参与吧!

  • 详情可见链接

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/ppdiffusers

在本赛题中,你可以使用 PPDiffusers,基于 DreamBooth 技术,微调文生图模型,让模型理解新的概念(比如你的宠物,或者你喜欢的美食)。

甚至修改此物体的某些属性:

点击“阅读原文”或前往活动官网报名赛题

https://aistudio.baidu.com/aistudio/competition/detail/860/0/introduction

参赛工具说明

PPDiffusers 是一款支持多种模态(如文本图像跨模态、图像、语音)扩散模型(Diffusion Model)训练和推理的国产化工具箱,依托于飞桨框架和自然语言处理模型库PaddleNLP。

  • 📦SOTA扩散模型Pipelines集合

PPDiffusers 提供 SOTA 扩散模型 Pipelines 集合。目前已经集成了30+ Pipelines,支持文图生成(Text-to-Image Generation)、文本引导的图像编辑(Text-Guided Image Inpainting)、文本指导的图像变换(Image-to-Image Text-Guided Generation)、超分(Super Superresolution)在内的10+任务,覆盖文本图像跨模态、图像、音频等多种模态。

  • 🔊提供丰富的噪声调度器 (Noise Scheduler)

可以对 速度 质量 进行权衡,用户可在推理时根据需求快速切换使用。已支持 DDPM、DDIM 、PNDM、DPMSolver 等 众多Scheduler

  • 🎛️ 提供多种扩散模型组件

提供了多种扩散模型组件,如UNet1DModel/

UNet2DModel/UNet2DConditionModel/VQModel/AutoencoderKL等。

  • 🚀 支持FastDeploy高性能部署

提供基于FastDeploy的🔥高性能 Stable Diffusion Pipeline,单卡 80G A100 环境下,512*512图像生成速度68.2 iters/s,仅需 0.76s 即可出图。

我们将为所有提交作品(Notebook 项目、上传模型)的队伍颁发参与奖,包括活动证书荣誉、飞桨周边。除参与奖外,设置一、二、三等奖,由作品的受欢迎程、创意、技术实现方案等综合评选获奖队伍。

奖金3k(2名)

奖金1k(5名)

面值 200 元京东卡(10名)

一、二、三等奖获奖队伍还可获得 50 美元 HuggingFace store 代金券。

飞桨人工智能学习实训社区 AI Studio 为参赛者提供计算资源。AI Studio 集开放数据、开源算法、免费算力三位一体,为开发者提供高效学习和开发环境,并助力开发者学习交流。

点击 阅读原文 ,立即报名!

原文链接: https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247612808&idx=1&sn=09f658361494a42958c4f1d1a0616c11&chksm=96ebe608a19c6f1e55095c6db6ab54613a1b7f79e8e0c42d5b88e7f0645546622c7d87ae6307&scene=126&sessionid=0 diffusers包含多个用于扩散过程的预置scheduler function,用于接收经过训练的模型的输出,扩散过程正在迭代的样本,以及返回去噪样本的时间步长。在其他扩散模型又被称为采样器。 有许多可以免费试用的 AI 生成 图片的网站,其中包括: Deep Dream Generator:这个网站使用了 Google Deep Dream 技术,可以让你在线 生成 各种奇妙的图像。 DALL-E:这是由 OpenAI 开发的一个 AI 图像 生成 器,可以根据你输入的文本描述 生成 相应的图像。 thispersondoesnotexist.com:这个网站使用了 生成 对抗网络(GAN)技术,... 项目开发领导者有两位,分别是 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser,和慕尼 大学机器视觉学习组的 Robin Romabach。这个项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜伏扩散模型 (Latent Diffusion Model) 研究。在训练方面,模型采用了4000台 A100 显卡集群,用了一个月时间。 UNet 在以文本嵌入为条件的同时迭代地对随机潜在图像表示进行去噪。UNet 的输出,即噪声残差,用于通过调度器算法计算去噪的潜在图像表示,去噪过程大约重复,50 次逐步检索更好的潜在图像表示。将潜在表示解码为真实图像,训练期间编码器用于获取图像的潜在表示,推理过程使用解码器转换回图像。..................................................................