① SMILES串非唯一表示,相同的分子结构可以转换成许多SMILES串,如工作流图左下部分;
② seq2seq模型通常关注序列的顺序,因此对一些RNN分子生成模型,它们可能只学习SMILES语法规则,而不是分子结构的知识。
③SMILES串的目的是将分子结构压缩成一维字符串,而不是捕捉分子的相似性,因此具有相似化学结构的分子可以被编码成非常不同的SMILES字符串,如下图。
在这个图中,两个分子的化学结构是比较类似的,但它们被编码成的SMILES串完全不同,因此无法表示它们的化学多样性
基于生成式对抗网络的模型,图为GAN的总体结构:
① 对于一个任意分布q(x),取样输入到生成网络中,生成器生成一个分子
② 生成的分子被输入到鉴别器中,鉴别器判断它与真实分子之间的差异
③ 鉴别网络分别考虑他们真假的可能性
在整个过程中,GAN主要由生成网络与鉴别网络两个部分:
①生成网络负G责生成新的数据实例来欺骗鉴别网络D
②鉴别网络D负责把真的和生成的实例鉴别出来; 因此,G和D构成了一个相互博弈的过程。
最理想的结果是:G可以生成以假乱真的实例;D难以判断实例是真的还是假的,即D(G(z)) = 0.5。这样就得到了一个分子生成模型G。
②缺点:
A. GAN通常难以训练,需要仔细调整超参数;
B. 可能会产生模式崩溃的问题;
C. 训练过程比较缓慢,而且不可预测。
模型的参数通常是模型自己训练得到的,如神经网络的权重和逻辑回归中的系数;
超参数一般是训练过程中手动设置的,如learning rate。
创新点:
①用马尔科夫决策过程MDP生成SMILES串
②由全连接网络(FCN)组成的预测模型作为reward function
缺点:
与REINVENT一样,训练过程复杂,难以生成100%有效的SMILES串
Markov Property马尔科夫性质:当前状态决定未来 即 P(St+1 | St,St-1,St-2…) = P(St+1 | St)
MP(Markov process马尔科夫过程):具有马尔科夫性质的随机过程
MDP(Markov decision process马尔科夫决策过程):具有一步动态性,即在考虑下一个时间 t+1 的 state 和 reward 时,只考虑当前时间 t 的 state 和 action 的影响
预测模型是经过预训练的,ReLeaSE的性能主要取决于预测网络和生成网络
基于片段的药物设计(ADQN-FBDD)的深度Q学习网络
模型解读:
①在这个模型中,agent将t时刻的state和action传给environment;environment产生t+1时刻的state和reward传给agent,同时environment会转移到下一个状态。如此不断循环,直到找到一个最优的策略。
②模型中间,是DQN 算法的一部分, Experience Replay Store经验回放存储,将 系统探索环境 得到的 数据 储存起来,然后随机采样 样本,更新深度神经网络的参数。
创新点:
①通过添加碎片来创建分子
②生成的分子更像药物,因为分子是使用 化学反应的规则 和 结合位点的 3D信息 创建的。因此,ADQN-FBDD模型 可以有效地探索特定目标的化学空间。
在reward function的指导下,agent择有利片段添加到当前状态的正确位置
文章讲述了人工智能分子生成模型的发展现状:
(1)简单的RNN是适度有效的分子生成模型;
(2)VAE、GAN、AAE遵循变分推理的方法;
(3)基于强化学习的模型可以执行分布式计算,减少了训练时间,但模型容易受到分子表示质量的影响。
1 Introduction(1)背景 新药的研发既需要较长的时间,也需要较高的成本。于研究人员来说,在合理的时间内 从大量可合成化合物中 找到最有希望的 候选化合物 仍然是一个挑战。因此可以借助AI分子生成模型。(2)目的作者回顾了一些AI分子生成模型,并讨论每种模型的优缺点。同时,作者描述了如何将强化学习(RL)算法应用于生成式人工智能,以便在 更好地利用分布式硬件 的同时 获得更真实的效果。2 分子生成的简单模型:RNN(1)工作流图为RNN分子生成模型的工作流:①将分子转化为SM
Blizzard、VoxCeleb2 和 KSS 在config/. 对于其他数据集,请根据其他提供的数据填写您自己的 YAML 文件。
可以对所有
类
型的数据集进行无条件训练,前提是它们具有data.extensionYAML 文件中指定的一致文件扩展名。
目前仅对 KSS 和暴雪数据集的一个子集实施条件训练。
git clone git@github.com:mlomnitz/Compression
GAN
.git
该软件包提供了在对抗网络(
GAN
)设置中使用自动编码器的图像压缩算法。 首先描述,在此工作的实施侧重于人脸,更具体的资料照片。
使用从中精选的40K图像子集对网络进行了训练,以忠实地重建人脸,并压缩了20到30倍。
可以使用以下方法通过pip安装此软件包和相关要求:
pip install -r requirements.txt
python setup.py install
可以通过以下 下载用于训练/验证/测试的数据集:以下列出了可用的训练
模型
和关联的配置文件:
训练了40个时期的
模型
,没有噪声采样: ,
随着将来的实验完成,将提供更多训练有素的
模型
。
GAN
(
Gene
rative
Adversarial Networks)是一种
深度学习
模型
,可以用来
生成
图像、音频、视频等多媒体内容。PyTorch是一种流行的
深度学习
框架,提供了灵活的API和工具,简化了
GAN
模型
的开发和训练。
在PyTorch中,
GAN
的核心是由两个神经网络组成的,一个是
生成
器(
Gene
rator),另一个是判别器(
Dis
criminator)。
生成
器的任务是
生成
假的样本,而判别器的任务是区分真假样本。在训练过程中,
生成
器和判别器通过对抗的方式相互迭代,使得
生成
器的输出尽可能逼近真实样本,而判别器的输出将假样本与真样本尽可能区分开来。
PyTorch提供了用于训练
GAN
模型
的函数和
类
,例如
GAN
模型
的定义、损失函数的计算、优化器的选择等。在训练过程中,可以使用PyTorch中的数据批处理、数据增强等技术来提高
模型
的表现,以及使用训练与调试工具来监控
模型
的性能和调试错误。
GAN
模型
的应用非常广泛,例如合成图像、风格迁移、图像修补、数据增强等。此外,
GAN
模型
还可以与其他
深度学习
任务相结合,例如语音合成、自然语言
生成
等。在
深度学习
领域,
GAN
模型
已经成为一个非常重要和有前途的研究方向。
Could not load dynamic library ‘libcudart.so.11.0‘; dlerror: libcudart.so.11.0: cannot open share
size mismatch for layer1.0.weight: copying a param with shape torch.Size([100, 300]) from checkpoint
Property-Aware Relation Networks for Few-Shot Molecular Property Prediction | PAR,GNN,属性感知嵌入函数,元学习