机器学习后续分析

数据转换成统一的参数后可应用于机器学习。机器学习模型开发常分为五步: 定义问题,准备数据,训练模型,验证模型,模型优化更新。

下面分别以机器学习两大类别——监督学习和无监督学习为例。

支持向量机

SVM是监督学习算法,输出为类别预测,运用kernel可以改写线性函数为:

Keras神经网络

神经网络是无监督学习算法,代码参考自《Python机器学习建模与部署》:

from keras.model import Sequential
from keras.layers import Dense,Flatten
NN=Sequential()
NN.add(Flatten(input_shape=(56,56))
#激活函数
NN.add(Dense(512,activation='relu'))
MM.compile(optimizer='adam',
loss='categorical_crossentropy',
metrics=['accuracy'])
#分割为80%训练集,20%测试集
NNmodel_train=NN.fit(x_train,y_train,epochs=2,validation_spilt=0.2)

1.均方误差(RMSE)

计算模型在测试集上的均方误差是衡量模型性能的一种方法。

通过观察输入X与预测值y,减少MSE以改进权重。

2.交叉验证

一个小规模的数据(测试)集意味着MSE的不确定性。
在原始数据集上随机重复采样允许我们使用所有样本估计MSE。

本文简要介绍了将机器学习应用于化学信息学的场景和流程。

IC50:半抑制浓度(或称半抑制率),即IC50,对指定的生物过程(或该过程中的某个组分比如酶、受体、细胞等)抑制一半时所需的药物或者抑制剂的浓度。药学中用于表征拮抗剂(antagonist)在体外实验(in vitro)中的拮抗能力。 pIC50:pIC50=-log(IC50) EC50:是指在特定暴露时间后,能达到50%最大生物效应对应的药物、抗体或者毒素等的浓度。药学中除了用于表征体外实验中(in vitro)激动剂(agonist)的激活能力外,还可用于表示达到体内(in vivo)最大生物效应. 原文链接:https://mp.weixin.qq.com/s/D5eLXvCUAln2NOj2fDw3vg 分子对接是最常用的分子模拟工具,用来探究任何有相互作用的生物活性分子之间的相互作用细节。然而对接产生的多个可能的构象到底那个是天然存在的构象?确定了构象,什么作用力,作用位点起到关键作用? 确定最佳构象,有两种根据,一是binding pose最多的,一种是打分函数评价最好的。 然而这两个如果是一类结合构象(如RMSD<2.0A),那么可以50%(属个人经验,没有根据)以上确定这个结合构象为最 抗胰腺癌候选药物分子优化建模 Mole—文件提供了候选药物分子的784个属性值,包含training和test两个表,分别有1974个分子和50个分子。 ER-----文件提供了这些候选分子IC50和pIC50值的大小,用于衡量分子活性,其中pIC50IC50的负对数,取负对数的原因是为了使pIC50大小与分子活性呈正相关。同样包含training表和test表,training表中分子活性标志值pIC50已经给出,test表中的值未给,是问二需要自己预测的值 问一:从分子的784个属性特征中 ***热力学三定律参考:https://baike.baidu.com/item/%E7%83%AD%E5%8A%9B%E5%AD%A6%E4%B8%89%E5%A4%A7%E5%AE%9A%E5%BE%8B/10572632?fr=aladdin***焓与熵区别。 Harren, Tobias等人于2022年在Journal of Chemical Information and Modeling上发表了一篇“Interpretation of Structure–Activity Relationships in Real-World Drug Design Data Sets Using Explainable Artificial Intelligence”。下面我们来做一下翻译和解读。 乳腺癌是目前世界上最常见,致死率较高的癌症之一。乳腺癌的发展与雌激素受体密切相关,有研究发现,雌激素受体α亚型(Estrogen receptors alpha, ERα)在不超过10%的正常乳腺上皮细胞中表达,但大约在50%-80%的乳腺肿瘤细胞中表达;而对ERα基因缺失小鼠的实验结果表明,ERα确实在乳腺发育过程中扮演了十分重要的角色。目前,抗激素治疗常用于ERα表达的乳腺癌患者,其通过调节雌激素受体活性来控制体内雌激素水平。因此,ERα被认为是治疗乳腺癌的重要靶标,能 使用自己的分子数据集(csv,sdf,mol2)来创建适用于PyG的任务。 需要的第三方库 rdkit, pytorch, pyg,在使用图神经网络进行任务是,我们有些仅仅使用轮子,所以要使用自己的数据集来预测某些指标。所以我们就需要用自己的数据集建立适合PyG的Dataset。PyG有两种方法建立数据集,一种是直接读到内存中去的InMemoryDataset,限制是你的内存大小,还有一种是建立比较大的数据集的Dataset。这次我主要向分享比较全能使用的Dataset。 代码如下(示例):