生成式语言模型是 NLP 模型的一种,该模型所要实现的就是经过训练后能够根据其之前所接触过的模式和结构,生成可读的人类语言。
可以用于对话系统、翻译、问答系统等。
现有的 SOTA 预训练语言模型可以分为:
-
masked language model(encoder):一般用于分类任务
-
autoregressive language model(decoder):一般用于文本生成
-
encoder-decoder language:可以利用上下文信息和自回归属性来提高各种任务的性能
1、Decoder models
现有表现较好的基于 decoder 的自回归语言模型是 GPT[61],是使用 self-attention 的 Transformer 模型。还有 BERT、T5、InstructGPT 等。
2、Encoder-Decoder models:
现有的表现较好的是 Text-to-Text Transfer Transformer(T5)[56],同时使用了基于 Transformer 的 Encoder 和 Decoder 来进行预训练。
还有例如 Switch Transformer、ExT5、HELM 等
1、GAN,Generative Adversarial Networks(GANs)
GAN 是图像生成领域很流行的一个模型,包括两个模块:
-
生成模型,学习如何生成新的数据
-
判别模型,判断数据是真实的还是生成的假数据
典型方法有:
-
LAPGAN
-
DCGANs
-
Progressive GAN
-
SAGAN
-
BigGAN
-
StyleGAN
-
D2GAN
-
GMAN
-
MGAN
-
MAD-GAN
-
CoGAN
2、VAE,Variational AutoEncoders
VAE 是生成模型,其原理是尝试学习数据的概率分布并学习如何重建数据使得其更接近原始输入数据。
3、Flow
Normalizing Flow 是一种基于分布变换的方式,使用一系列可逆和可微的映射将简单分布变成复杂分布
4、Diffusion
Diffusion model 是由通过逐步向输入图像中添加高斯噪声的前向扩散,和逐步恢复原图的逆向去噪组成的,是目前 SOTA 的方法。
-
DDPM 使用两个马尔科夫链来逐步进行高斯加噪和反向去噪
-
SGM(Score-based generative model)
-
NCSN
-
Score SDE
Encoder-decoder 结构会经常被用于解决计算机视觉和自然语言处理的多模态生成问题
-
Encoder:学习输入数据的复杂特征表达
-
Decoder:生成反应跨模态交互、结构、一致性的原始模态表达
视觉语言 Encoder,多模态的结合可以直观的想象通过将两个不同模态的预训练模型结合起来即可,主要有两种:
-
concatenated encoder
-
cross-aligned encoder
Concatenated Encoder:
-
将两个不同模态的模型 concat 起来,比如最早的 VisualBERT,使用 BERT 作为 text encoder,CNN 作为 image encoder,来自 image encoder 的编码被直接合并到 BERT 的输入编码中,让模型隐式地学习表达。
-
VL-BERT,使用 Faster R-CNN 来抽取 RoI,将抽取到的 RoI 信息作为图像区域的编码
-
UNITER
Cross-aligned Encoder:
-
该结构一般使用 tow-tower 结构,分别使用单个 tower 学习每个模态对应的特征,然后使用 cross-modality encoder 对两个模态的特征学习联合表达。
-
LXMERT 使用 Transformer 来抽取图像特征和文本特征,然后使用了一个多模态 cross-attention 模块来进行协同学习,输出编码是视觉编码、语言编码、多模态编码
-
ViLBERT 使用 cross-transformer 模型来对齐两个不同的模态,每个模态输入的 key 和 value 会被输入另外一个模态的 attention module 来生成一个合成的 attention 编码
-
CLIP 使用点乘的方式来融合 cross layer,比上面的使用 self-attention 计算量更少
视觉语言模型 Decoder,能够通过给 encoder 得到的编码表达来生成特定模态的表达,主要包括:
To-text decoders,通常从 encoder 中接收文本上下文表达,并解码为一个句子,主要有如下两种模型,随着大型语言模型的出现,现在很多结构都使用冻结语言 decoder 的方式。
-
jointly-trained models,联合训练解码器是指在解码表示时需要完整的交叉模态训练的解码器
-
frozen models,冻结大语言模型,值训练 image decoder
To-image decoders,表示给定一条指令,生成对应的图像。用的较多的同样是 encoder-decoder 结构,encoder 用于学习语言信息,decoder 用于合成图像。一般有 GAN-based 和 diffusion-based 方法。
还可以用于教育方面,比如生成教学视频、学术论文等。
2022年是
AIGC
(Al-Generated Content,
人工智能
生成内容〉
爆火
出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章《生成式Al:一个创造性的新世界》,认为
AIGC
会代表新一轮范式转移的开始。2022年10月,Stability Al获得约1亿美元融资,估值高达10亿美元,跻身独角兽行列。Stability Al 发布的开源模型Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-lmage,T2I)。Stable Diffusion、DALL-E 2、MidJourney等可以生成图片的AlGC模型引爆了AlI作画领域,Al作画风行一时,标志
人工智能
向艺术领域渗透。2022年12月, OpenAl的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱
AIGC
,不断推出相关的技术、平台和
为应对数字经济中数字智能的挑战,
人工智能
生成内容(artificial intelligence-generated content,
AIGC
)应运而生。
AIGC
通过根据用户输入的关键字或需求生成内容,使用
人工智能
来辅助或取代人工内容生成。大型模型算法的发展大大增强了
AIGC
的能力,这使得
AIGC
产品成为一种很有前途的生成工具,也为我们的生活增添了便利。
AIGC
作为一种上游技术,在支持下游应用方面具有无限的潜力。重要的是要分析
AIGC
当前的功能和缺点,以了解如何在未来的应用中最好地利用它。因此,本文对
AIGC
的定义、基本条件、前沿功能和高级特性进行了较为
全面
的综述。此外,还讨论了大规模预训练模型的优势和
AIGC
的产业链。此外,文章还探讨了
AIGC
中辅助生成和自动生成之间的区别,并提供了文本生成的示例。本文还探讨了
AIGC
与元宇宙的潜在集成。最后指出了存在的问题和未来的发展方向。
TE认为,目前国内至少46.5%的企业具备了应用
AIGC
的基础环境。
国内数字化市场历经8年发展,企业上云意识进入高认同阶段,超过50%的企业将业务或路上或已经部署在云端,这其中又有超过90%的企业开始了数字化转型的设计规划,这意味着数字资产、数据驱动、业务数字原生程度大幅加深,
AIGC
可成活的土壤越牢固。
因此在AI飞速生根落地的今天,生成式
人工智能
技术的落地进程,已经远远超出了商业化的进程。
在此背景下哪些玩家已经掌握了AI财富密码?哪些场景将是培育AI继续高速生长的温床?现有的市场玩家的发展路径又该如何复刻?
内容概要:2023
AIGC
人才趋势报告是一份关于
人工智能
领域人才需求与发展趋势的报告,旨在预测未来几年内
人工智能
产业对各类人才的需求及其分布特征,以科普简介的形式呈现。
适用人群:本文适合对
人工智能
产业和相关人才发展感兴趣的从业者、学生、职场人员等人群。
使用场景及目标:2023
AIGC
人才趋势报告主要面向
人工智能
领域相关从业者和招聘方,旨在为人才培训、人才选拔和企业战略决策提供参考。
本文将
介绍
2023
AIGC
人才趋势报告的内容:
人工智能
领域的就业前景:随着
人工智能
技术的快速发展,
人工智能
领域的就业前景将持续看好。预计到2023年,
人工智能
相关行业的就业比例将进一步提高。
各项技能需求的变化:数据分析、机器学习、自然语言处理等技能在
人工智能
领域中的应用越来越广泛,这些技能在未来几年内将继续保持高需求。此外,
人工智能
领域还将对跨学科和交叉领域的人才需求增加。
人工智能
领域人才的分布特征:预计到2023年,亚太地区将成为
人工智能
领域最大的工作市场之一。同时,女性在
人工智能
领域中的比例将逐渐提高,多元化的团队构成也将成为一个趋势。
2022年是
AIGC
(Al-Generated Content,
人工智能
生成内容)
爆火
出圈的一年,不仅被消费者追捧,而且备受投资界关注,更是被技术和产业界竞相追逐。9月23日,红杉美国发表文章《生成式Al:一个创造性的新世界》,认为
AIGC
会代表新一轮范式转移的开始。2022年10月,Stability Al获得约1亿美元融资,估值高达10亿美元,跻身独角兽行列。Stability Al发布的开源模型Stable Diffusion,可以根据用户输入的文字描述(称为提示词,prompts)自动生成图像,即文生图(Text-to-lmage,T2l)。Stable Diffusion、DALL-E 2、MidJourney 等可以生成图片的AlIGC模型引爆了Al作画领域,Al作画风行一时,标志
人工智能
向艺术领域渗透。2022年12月,OpenAl的大型语言生成模型ChatGPT刷爆网络,它能胜任刷高情商对话、生成代码、构思剧本和小说等多个场景,将人机对话推向新的高度,让网友们不禁怀疑ChatGPT是否已经具有人类智能。全球各大科技企业都在积极拥抱AlGC,不断推出相关的技术、平台和