确定药物副作用发生频率是药物风险−效益评估的关键问题. 随机对照临床试验方法性能有限且成本昂贵. 随着药物临床试验数据的增加,基于数据驱动计算方法研究药物−副作用关系成为可能. 文章提出一种基于药物−副作用协同传播模型的药物副作用发生频率预测方法. 该方法基于已知的药物副作用发生频率信息构建相似网络,基于已知频率信息在网络中高阶协同传播过程预测药物副作用发生频率. 此外,提出一种基于邻域学习的相似网络构建方法,进一步提升模型预测性能. 在SIDER 4.1和ADReCS 3.1中获得的真实的药物−副作用频率数据集上进行实验,相较于现有最优方法,提出的方法在均方根误差和平均绝对误差指标上分别下降了6.98%、7.23%.
药物副作用频率 /
高阶相似性 /
邻域学习 /
Abstract:
Determining the frequency of drug side effects is a key issue in drug development and risk-benefit evaluation, which is usually achieved through randomized controlled clinical trials, but this method has limited performance and is expensive. As data from drug clinical trials increase, it is possible to study side effects based on data-driven computational methods. The existing drug-side effect association prediction methods mainly explore the drug-side effect association. In contrast, this paper aims to study the prediction of the frequency of drug-side effects, and quantitatively analyze and compare each side effect of each drug according to the frequency of side effects in clinical trials of drug development. In this paper, a cooperative Propagation model FPDSF (Rating Propagation Model for Predicting Frequencies of Drug-Side) based on drug-side high order similarity network is proposed. The model builds biological entity similarity networks based on known drug-side effect frequency information, and deduce the frequency of potential drug side effects through the process of high-order collaborative propagation of known frequency information in the network. In addition, a similar network improvement method based on neighborhood learning is proposed to improve the prediction performance of the model. Experiments are carried out on the real drug-side effect frequency data set obtained in SIDER 4.1 and ADRecS 3.1. Compared with the existing optimal method, the proposed method decreases by 6.98% and 7.23% in the mean square error and mean absolute error indicators respectively.
Key words:
frequency of drug side effects /
high-order similarity /
neighborhood learning /
collaborative propagation
排名副作用预测分数预测频率验证依据
1 嗜睡 4.5513 非常频繁的 SIDER 4.1, ADReCS 3.1 2 头晕 4.4118 非常频繁的 SIDER 4.1, ADReCS 3.1 3 背痛 4.3748 非常频繁的 SIDER 4.1, ADReCS 3.1 4 腹痛 4.3414 非常频繁的 SIDER 4.1 5 便秘 4.3360 非常频繁的 SIDER 4.1, ADReCS 3.1 6 头痛 4.2768 非常频繁的 SIDER 4.1, ADReCS 3.1 7 脓肿 4.2755 非常频繁的 SIDER 4.1, ADReCS 3.1 8 失眠 4.2630 非常频繁的 ADReCS 3.1 9 疲劳 4.2134 非常频繁的 SIDER 4.1, ADReCS 3.1 10 咳嗽 4.1742 非常频繁的 ADReCS 3.1 11 呼吸困难 4.1440 非常频繁的 SIDER 4.1, ADReCS 3.1 12 焦虑 4.1324 非常频繁的 SIDER 4.1, ADReCS 3.1 13 食欲下降 4.1308 非常频繁的
—
14 关节痛 4.0882 非常频繁的 SIDER 4.1, ADReCS 3.1 15 肌痛 4.0722 非常频繁的 SIDER 4.1, ADReCS 3.1 16 震颤 4.0646 非常频繁的 SIDER 4.1, ADReCS 3.1 17 腹泻 4.0608 非常频繁的 SIDER 4.1, ADReCS 3.1 18 搅拌 4.0481 非常频繁的 SIDER 4.1, ADReCS 3.1 19 口干 4.0197 非常频繁的 SIDER 4.1, ADReCS 3.1 20 感觉异常 4.0123 非常频繁的 SIDER 4.1, ADReCS 3.1
作者简介:
马豫芸(1996−),女,云南人,硕士生,主要研究面向药物领域的人工智能与机器学习方法. E-mail:1104310806@qq.com
云南大学 软件学院,云南 昆明 650500
收稿日期
:
2022-11-13
网络出版日期
:
2023-03-15
药物副作用频率
/
高阶相似性
/
邻域学习
/
协同传播
摘要:
确定药物副作用发生频率是药物风险−效益评估的关键问题. 随机对照临床试验方法性能有限且成本昂贵. 随着药物临床试验数据的增加,基于数据驱动计算方法研究药物−副作用关系成为可能. 文章提出一种基于药物−副作用协同传播模型的药物副作用发生频率预测方法. 该方法基于已知的药物副作用发生频率信息构建相似网络,基于已知频率信息在网络中高阶协同传播过程预测药物副作用发生频率. 此外,提出一种基于邻域学习的相似网络构建方法,进一步提升模型预测性能. 在SIDER 4.1和ADReCS 3.1中获得的真实的药物−副作用频率数据集上进行实验,相较于现有最优方法,提出的方法在均方根误差和平均绝对误差指标上分别下降了6.98%、7.23%.
Abstract:
Determining the frequency of drug side effects is a key issue in drug development and risk-benefit evaluation, which is usually achieved through randomized controlled clinical trials, but this method has limited performance and is expensive. As data from drug clinical trials increase, it is possible to study side effects based on data-driven computational methods. The existing drug-side effect association prediction methods mainly explore the drug-side effect association. In contrast, this paper aims to study the prediction of the frequency of drug-side effects, and quantitatively analyze and compare each side effect of each drug according to the frequency of side effects in clinical trials of drug development. In this paper, a cooperative Propagation model FPDSF (Rating Propagation Model for Predicting Frequencies of Drug-Side) based on drug-side high order similarity network is proposed. The model builds biological entity similarity networks based on known drug-side effect frequency information, and deduce the frequency of potential drug side effects through the process of high-order collaborative propagation of known frequency information in the network. In addition, a similar network improvement method based on neighborhood learning is proposed to improve the prediction performance of the model. Experiments are carried out on the real drug-side effect frequency data set obtained in SIDER 4.1 and ADRecS 3.1. Compared with the existing optimal method, the proposed method decreases by 6.98% and 7.23% in the mean square error and mean absolute error indicators respectively.
最近,文献[
8
]首先对药物副作用发生频率预测问题展开研究. 该工作将副作用量化为5个频率类别,并通过非负矩阵分解模型对药物和副作用的潜在特征向量进行学习,该向量编码了药物和副作用间的生物相互作用信息,最终基于这些向量预测药物−副作用发生频率. 然而,该工作并没有考虑药物相似性信息、副作用相似性信息等更有用的特征,具有一定的局限性. Zhao等
[
9
]
提出从多视图数据中预测药物副作用频率的图注意力模型. 该模型将化学结构相似度、副作用语义相似度和已知的药物−副作用频率信息等多个不同的数据源提取为不同的视图,通过图注意力机制整合不同视图向量,得到统一嵌入表示. 相较于文献[
8
],该模型预测效果有很大提升. 但该方法仅简单考虑相似网络结构中两个实体的直接关联(一阶相似性),并没有考虑到其间接关(高阶相似性),这限制了方法的预测性能. 2022年, Xu等
[
10
]
基于药物分子拓扑图进行研究,提出了编码器−解码器框架的预测模型. 该模型通过多层图注意力网络分别从药物分子结构图以及副作用余弦相似图中提取药物和副作用的向量表示,并以矩阵分解作为解码器. 该模型可用于所有已知分子结构的药物副作用频率预测任务,具有一定的适用性,然而还缺乏可解释性.
面向药物副作用发生频率预测问题、以准确地评估药物副作用发生频率为目标,本文提出一种新型的基于药物−副作用高阶相似网络的频率值协同传播模型(Frequencies Propagation model for predicting Frequencies of Drug–Side effects, FPDSF). 首先,基于已知的药物副作用发生频率数据计算药物之间、副作用之间相似性评分,分别构建药物、副作用相似网络;然后,为提升相似网络质量,进一步提出一种基于邻域学习方法的相似网络构建方法,并给出了相似网络降噪策略;再次,将已知副作用频率值作为节点属性信息,通过频率值传播推断相似网络中其他节点的副作用频率值,需要说明的是,不同于在两个直接相连的节点间进行信息传播的方式,本文通过高阶频率值传播,以获取更好的预测性能;最后,在真实的药物副作用发生频率数据集上,通过十折交叉验证方案测试了本文模型的有效性,并与现有工作进行了深入比较,实验结果表明本文方法能有效提高药物副作用发生频率的预测质量.
$ {D}_{\mathrm{P}}\left(u,v\right)=\frac{\displaystyle \sum _{i\in \mathcal{A}}({\boldsymbol{R}}_{ui}-{\mu }_{uv})({\boldsymbol{R}}_{vi}-{\mu }_{uv})}{\sqrt{\displaystyle \sum _{i\in \mathcal{A}}{({\boldsymbol{R}}_{ui}-{\mu }_{uv})}^{2}}\sqrt{\displaystyle \sum _{i\in \mathcal{A}}{({\boldsymbol{R}}_{vi}-{\mu }_{uv})}^{2}}}, $
式中,
${\mu }_{uv}=(1/\left|\mathcal{A}\right|)\displaystyle \sum _{i\in \mathcal{A}}{\boldsymbol{R}}_{ui}$
为平均评分,
$ \left|\mathcal{A}\right| $
为集合
$ \mathcal{A} $
的元素个数,
$ {\boldsymbol{R}}_{ui} $
是药物
$ {d}_{u} $
关于副作用
$ {s}_{i} $
的频率评分值,即频率矩阵
$ \boldsymbol{R} $
第
u
行、第
i
列的元素. 同样地,定义集合
$ {B}_{i} $
为副作用
$ {s}_{i} $
上观测到的药物,集合
$ \mathcal{B}= {B}_{i}\cap {B}_{j} $
为同时发生副作用
$ {s}_{i} $
和
$ {s}_{j} $
的药物,
${\nu }_{ij}=(1/\left|\mathcal{B}\right|) \displaystyle \sum _{u\in \mathcal{B}}{\boldsymbol{R}}_{ui}$
为平均评分,则
$ {s}_{i} $
和
$ {s}_{j} $
的相似度为:
$ {S}_{\mathrm{P}}\left(i,j\right)=\frac{\displaystyle \sum _{u\in \mathcal{B}}({\boldsymbol{R}}_{ui}-{\nu }_{ij})({\boldsymbol{R}}_{uj}-{\nu }_{ij})}{\sqrt{\displaystyle \sum _{u\in \mathcal{B}}{({\boldsymbol{R}}_{ui}-{\nu }_{ij})}^{2}}\sqrt{\displaystyle \sum _{u\in \mathcal{B}}{({\boldsymbol{R}}_{uj}-{\nu }_{ij})}^{2}}}. $
式中,
$ {\boldsymbol{S}}_{\mathrm{s}\mathrm{i}\mathrm{m}} $
表示节点间某种相似性度量标准. 领域项
$ {\boldsymbol{S}}_{\mathrm{l}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{n}} $
的学习具体实现如下:给定副作用节点,将其余节点按照预定相似度降序排列,并确定相似度最高的前
K
个节点,用
$ {\mathcal{C}}_{i} $
表示副作用
$ {s}_{i} $
的近邻集合.
$ \boldsymbol{R}\left[:,i\right]{\in \mathbb{R}}^{m} $
为副作用
$ {s}_{i} $
的频率向量. 接下来将
$ {\mathcal{C}}_{i} $
中对应副作用节点的频率向量拼接为
$ {\boldsymbol{N}}_{i}{\in \mathbb{R}}^{m\times{K}} $
.
$ {\boldsymbol{N}}_{i} $
作为副作用
$ {s}_{i} $
的邻居特征向量集合,通过权重组合的方式在欧氏空间中拟合目标特征向量
$ \boldsymbol{R}\left[:,i\right] $
,目的是缩小组合与目标向量在欧氏空间的距离. 并通过反向传播距离误差来更新邻域系数
$ \boldsymbol{x}{\in \mathbb{R}}^{{K}} $
,最终系数的元素值对应了
K
个邻居节点的重要性,评估了邻居的频率信息与当前节点副作用频率值预测结果的相关性大小. 最后将
$ \boldsymbol{x} $
作为副作用
$ {s}_{i} $
基于邻域的相似特征. 该过程学习目标如下:
药物相似网络
$ {\boldsymbol{D}}_{i} $
的节点以传播方式
$ \widehat{\boldsymbol{R}}\left[:,i\right]=F\left(\boldsymbol{R}\left[:,i\right]\right) $
聚合邻居的频率信息并生成对副作用
$ {s}_{i} $
的频率预测值. 即不完全频率向量
$ \boldsymbol{R}\left[:,i\right]∊{\mathbb{R}}^{m} $
通过相似网络的拓扑结构进行传播和更新后,得到填充后的向量
$ \widehat{\boldsymbol{R}}\left[:,i\right] $
. 一阶情况下,频率值沿着加权边在相连节点之间进行传播,传播模型定义为
$ F\left(\boldsymbol{R}\left[:,i\right]\right)=\left(p{\boldsymbol{D}}_{i}\right)\boldsymbol{R}\left[:,i\right] $
,其中边权重为相连节点的相似度,反映不同邻居节点对当前节点频率值预测结果的影响程度,通常越相似的节点之间影响越大.
l
阶时,频率值沿着长度为
l
的路径在当前节点与其
l
阶邻居节点之间进行传播,此时距离为
l
的节点之间的边权重为这条路径中每一个单位路径(长度为1)的边权重的乘积. 考虑到通过不同路径距离的节点信息传播可以充分挖掘网络蕴含的信息,把基于最大阶数为
L
的药物相似网络频率评分传播模型定义为:
矩阵
$ \boldsymbol{R} $
先通过
l
阶药物相似网络进行传播,其中
$l=\left(1, \cdots, L\right)$
,得到
L
个填补后的结果矩阵
$ {\boldsymbol{P}}^{\left(1\right)} $
,
$ {\boldsymbol{P}}^{\left(2\right)} $
,···,
$ {\boldsymbol{P}}^{\left(L\right)} $
,把各结果矩阵的加权和
$ \boldsymbol{R}{{'}} $
作为第一阶段的传播结果;将
$ \boldsymbol{R}{{'}} $
输入到不同阶副作用相似网络中进行传播和值填补,得到最终的预测结果
$ \widehat{\boldsymbol{R}} $
. 该传播过程形式化为:
$ \begin{split}
&\underset{{\boldsymbol{p}},{\boldsymbol{q}}}{\mathrm{min}}\sum _{(u,i)\in \mathcal{S}}{\left\{{\left[\left(\sum _{l=0}^{L}{p}_{l}{\boldsymbol{D}}_{i}^{l}\right)\boldsymbol{R}{\left(\sum _{h=0}^{H}{q}_{h}{\boldsymbol{S}}_{u}^{h}\right)}^{\mathrm{T}}\right]}_{ui}-{\boldsymbol{R}}_{ui}\right\}}^{2}+\\&\qquad\alpha ({||\boldsymbol{p}||}_{2}^{2}+{||\boldsymbol{q}||}_{2}^{2}),
\end{split} $
15.
${\mathrm{min}}_{{p},{q}} \displaystyle \sum _{(u,i)\in \mathcal{S}}\Big\{\Big[\Big( \displaystyle \sum _{l=0}^{L}{p}_{l}{\boldsymbol{D}}_{i}^{l}\Big)\boldsymbol{R}{\Big( \displaystyle \sum _{h=0}^{H}{q}_{h}{\boldsymbol{S}}_{u}^{h}\Big)^{\mathrm{T}}}\Big]_{ui}-$
${\boldsymbol{R}}_{ui}\Big\}^{2}+ \alpha \Big({||\boldsymbol{p}||}_{2}^{2}+{||\boldsymbol{q}||}_{2}^{2}\Big)$
药物−副作用频率数据集最初由文献[
8
]基于副作用资源数据库4.1(SIDER 4.1) (
http://sideeffects.embl.de/
)
[
15
]
获取,共包含759个药物和994个副作用,副作用频率值被编码为1~5的整数:非常稀少的 (频率=1),稀少的 (频率=2),不频繁的 (频率=3),频繁的 (频率=4),非常频繁的(频率=5). 文献[
9
]在此基础上删除了与STITCH数据库
[
16
]
(
http://stitch.embl.de/
)中化合物ID不匹配的药物,最终得到37071项副作用频率信息,包含750个药物和994个副作用. 本研究基于文献[
9
]的数据进行,将频率信息存储为矩阵,矩阵中观测到的项设置为对应频率值,未观测到的项为0.
图2
展示了不同频率类型的药物−副作用对的数量情况.
本节对3种高阶相似网络传播模型(RP-D
、
RP-S和FPDSF)进行分析,并选出性能最好的传播方案进行后续的实验. 本节所有相似网络都基于皮尔逊相似度构建,并通过求解损失函数的最小二乘问题来学习不同相似网络的阶系数
$ p、q $
. 实验中设置最近邻个数
$ K=50 $
,正则化参数
$ \alpha =0.5 $
,阈值
$ T=\mathrm{ }2 $
,并以同样的相似网络阶数进行结果分析和比较(RP-D的药物相似网络阶
$ L=3 $
,RP-S的副作用相似网络阶
$ H=3 $
,协同传播模型FPDSF的相似网络阶
$ L=H=3 $
),3个模型经过十折交叉验证的结果如
图3
所示.
首先分析不同相似阶的组合
$ (L,H) $
对
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
性能的影响. 设置最近邻数
$ K=50 $
,正则化参数
$ \alpha =0.5 $
,阈值
$ T=\mathrm{ }2 $
,并通过十折交叉验证方法得到
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}n} $
在药物相似网络阶
L
和副作用相似网络阶
H
分别为1~5的性能. 以
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
作为评价指标,结果如
图4
所示,图中不同颜色的柱状条分别代表不同大小的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
值和
$ {E}_{\mathrm{M}\mathrm{A}} $
值,图右侧的色条展示了柱状条的颜色和数值之间的映射.
(1)
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
模型的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
均随药物相似阶
L
和副作用相似阶
H
的增加而降低,且变化趋势保持一致.
图4
(a)中,当
H
、
L
同时从1增加到3时,模型的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
从0.6484(正红色柱形条,
$ L=H=1 $
)降低为0.6326(深蓝色柱形条,
$ L=H=3 $
),且象征较小
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
的柱形条主要集中在高阶区域(
$ L\ge 3 $
,
$ H\ge 3 $
的蓝色区域),说明高阶传播机制能提高模型的预测准确率.
图4
(b)的
$ {E}_{\mathrm{M}\mathrm{A}} $
也有相同的变化规律.
(2) 高阶传播机制虽然能提升
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
模型性能,但性能存在饱和的情况. 达到特定阶后,随着阶数的增加,模型性能不再提升. 当相似阶
L
和
H
到达3之后,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
都不再下降,反而有所回升,表明长度超过3的药物链或副作用链可能不会为模型提供更多有用信息,因此在本节接下来的参数分析中,以
$ \left(L,H\right)=\left(\mathrm{3,3}\right) $
作为模型
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
的阶数.
接下来分析参数
K
对模型性能的影响. 固定
$ T=2 $
,
$ \alpha =0.5 $
,
$ \left(L,H\right)=(3,\mathrm{ }3) $
. 实验结果如
图5
(a)所示.
图5
(a)中连接圆形点的折线表示
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
的变化,连接方形点的折线表示
$ {E}_{\mathrm{M}\mathrm{A}} $
的变化. 可看出
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
都从一个较高的值(
$ K=5 $
时,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}}= \mathrm{ }0.670\;9 $
,
$ {E}_{\mathrm{M}\mathrm{A}}=\mathrm{ }0.4976 $
)开始下降,在特定的
K
范围内(
$ K=\mathrm{ } 40 $
至
$ K=\mathrm{ }70 $
)逐渐平缓,并在
$ K=\mathrm{ }50 $
取得最小值(
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}}=\mathrm{ }0.632\;9,{E}_{\mathrm{M}\mathrm{A}}=\mathrm{ }0.465\;9 $
). 而当
$ K > 50 $
时,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
逐渐回升,这是因为当聚合过多邻居节点信息时,较低相似度的邻居无法提供有用的频率信息,反而会引入噪声,导致模型性能下降.
最后分析参数
T
对模型性能的影响,结果见
图5
(b). 设置
$ K=50 $
,
$ \alpha =0.5 $
,
$ \left(L,H\right)=(3,\mathrm{ }3) $
. 结果表明
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
在
$ T=2 $
时实现最优预测性能,即在药物对的频率向量上观测到相同的副作用个数小于2时,可直接认为该药物对不相似(同样适用于副作用频率向量的观测). 当
T
取更大值时,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
不再下降,由边降噪规则可知,阈值
T
的取值越高,相似网络中边被删除的可能性越大,因此推断数据集中任意两个药物对间并没有太多相同的副作用,在到达某临界点后,网络中已经几乎没有可根据
T
删除的边,因此再取更大的
T
值对模型性能的影响微乎其微.
同样地,首先分析相似阶的组合
$ (L,H) $
对
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
性能的影响. 设置最近邻数
$ K=10 $
,正则化参数
$ \alpha =0.5 $
,阈值
$ T=\mathrm{ }1 $
,并通过十折交叉验证方法得到模型在药物相似网络阶
L
和副作用相似网络阶
H
分别为1到5时的性能,结果如
图6
所示. 模型在
$ \left(L,H\right)=(1,\mathrm{ }2) $
时取得最优性能,此时
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}}=0.592\;2 $
,
$ {E}_{\mathrm{M}\mathrm{A}}=0.425\;4 $
,说明在副作用相似网络中,二阶邻居节点的频率信息传播能一定程度地提高模型预测准确率.
接下来分析参数
K
对模型性能的影响,固定
$ T=2 $
,
$ \alpha =0.5 $
,
$ \left(L,H\right)=(1,\mathrm{ }2) $
,实验结果如
图7
(a)所示. 图中当
K
取较小值时,模型性能较好,并且在
$ K=10 $
时得到最低的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
,而当
K
增大时,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
也都明显地上升.
图7
(b)分析了参数
T
对模型性能的影响. 设置
$ K=10 $
,
$ \alpha = 0.5 $
,
$ \left(L,H\right)=(1,\mathrm{ }2) $
,结果显示模型在
$ T=1 $
时的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
最低,当
T
增大时,模型
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
随之上升.
本小节通过实验验证本文提出的基于邻域学习的相似网络改进方法的有效性. 考虑到前文已验证的高阶相似网络传播模型
$ {F}_{\mathrm{P}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{s}\mathrm{o}\mathrm{n}} $
和
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
中,
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
实现了较好的性能,因此本节基于
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
模型通过邻域学习算法进行改进,改进后的模型记为
$ {F}_{\mathrm{J}\mathrm{L}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g}} $
. 选取
L
和
H
依次为1到5阶,固定
$ T=1,K=20 $
,结合前文
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
模型的实验结果进行讨论. 从
图8
(a)、(b)观察到,
$ {F}_{\mathrm{J}\mathrm{L}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g}} $
模型的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
变化趋势与
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
模型变化趋势基本一致,其中
$ {F}_{\mathrm{J}\mathrm{L}\mathrm{e}\mathrm{a}\mathrm{r}\mathrm{n}\mathrm{i}\mathrm{n}\mathrm{g}} $
整体值较小,说明对模型的相似网络增加邻域学习知识能有效提升模型性能.
图9
(a)反映了
K
选取对模型性能的影响. 对模型设置固定的
T
和相似网络阶数,可以看出
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
先大幅下降,在
$ K=20 $
时到达最低点,之后重新上升. 同样地,对参数
T
进行分析时,固定除了
T
之外的其他参数,结果如
图9
(b)所示. 结合
$ {F}_{\mathrm{J}\mathrm{a}\mathrm{c}\mathrm{c}\mathrm{a}\mathrm{r}\mathrm{d}} $
模型结果可看出,
T
曲线变化一致,说明
T
对两模型的影响相似.
$ T=1 $
时,
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
值最小,随着
T
的上升,模型性能下降.
实验中
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
和
$ {E}_{\mathrm{M}\mathrm{A}} $
的变化趋势一致,因此此处只选取两种方法的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
结果进行比较. 为了清晰地表现阶系数学习方法的效果,以1~5阶的模型预测结果进行展示.
图10
(a)为通过自动学习获取阶系数的实验结果,
图10
(b)将阶系数定义为超参,通过设置固定的阶系数进行实验(阶系数取平均值,如
$ L=3 $
时,
$ l={1、2}、3 $
阶相似网络的系数
$ {p}_{1}={p}_{2}= {p}_{3}= 1/3 $
). 从结果可知,基于学习的方法远优于固定参数的方法,并且这种方法在不需要人为干预的情况下自动学习模型的最优阶系数,同时高阶的传播机制有效地提升了模型性能;固定参数时,模型的
$ {E}_{\mathrm{R}\mathrm{M}\mathrm{S}} $
值普遍较高,且并没有随着模型阶数的增加而有所差别. 综合以上分析,本文通过自动学习来获取模型的阶系数是很有必要的.
为进一步评估FPDSF模型在副作用频率预测问题上的有效性,本节进行案例分析. 首先使用FPDSF模型对指定药物进行预测,并根据药物副作用频率的预测得分将相关副作用进行排序;然后通过SIDER 4.1
[
15
]
(
http://sideeffects.embl.de/
)和ADReCS 3.1
[
17
]
(
http://bioinf.xmu.edu.cn/ADReCS/index.jsp
) 这两个公开的最新版本副作用数据库对前20个预测结果进行验证. 本文以药物Pregabalin(普瑞巴林)
[
18
]
作为案例,这是一种获准治疗神经系统疾病的加巴喷丁类药物,嗜睡、头晕、头痛、水肿、口干等是Pregabalin最常见的副作用(发生在1%~10%的患者中),其发生频率随着药物剂量的增大而增加. 在最高处方剂量时(600 mg/d),发生头晕、视力模糊和头痛的频率都显著增加,因此使用Pregabalin需要仔细监测,以注意在较高剂量时发生严重副作用.
表3
为本文模型对Pregabalin副作用发生频率的前20位预测结果,其中19位均在相关数据库中得到了验证.
排名副作用预测分数预测频率验证依据
1 嗜睡 4.5513 非常频繁的 SIDER 4.1, ADReCS 3.1 2 头晕 4.4118 非常频繁的 SIDER 4.1, ADReCS 3.1 3 背痛 4.3748 非常频繁的 SIDER 4.1, ADReCS 3.1 4 腹痛 4.3414 非常频繁的 SIDER 4.1 5 便秘 4.3360 非常频繁的 SIDER 4.1, ADReCS 3.1 6 头痛 4.2768 非常频繁的 SIDER 4.1, ADReCS 3.1 7 脓肿 4.2755 非常频繁的 SIDER 4.1, ADReCS 3.1 8 失眠 4.2630 非常频繁的 ADReCS 3.1 9 疲劳 4.2134 非常频繁的 SIDER 4.1, ADReCS 3.1 10 咳嗽 4.1742 非常频繁的 ADReCS 3.1 11 呼吸困难 4.1440 非常频繁的 SIDER 4.1, ADReCS 3.1 12 焦虑 4.1324 非常频繁的 SIDER 4.1, ADReCS 3.1 13 食欲下降 4.1308 非常频繁的
—
14 关节痛 4.0882 非常频繁的 SIDER 4.1, ADReCS 3.1 15 肌痛 4.0722 非常频繁的 SIDER 4.1, ADReCS 3.1 16 震颤 4.0646 非常频繁的 SIDER 4.1, ADReCS 3.1 17 腹泻 4.0608 非常频繁的 SIDER 4.1, ADReCS 3.1 18 搅拌 4.0481 非常频繁的 SIDER 4.1, ADReCS 3.1 19 口干 4.0197 非常频繁的 SIDER 4.1, ADReCS 3.1 20 感觉异常 4.0123 非常频繁的 SIDER 4.1, ADReCS 3.1
药物副作用发生频率的评估在生物信息学中具有非常重要的研究意义. 随着药物副作用临床数据的大量累积,越来越多的副作用知识库被建立,传统的生物实验方法逐渐被基于计算的方法替代,加快了副作用相关研究的进程. 针对基于计算的方法存在的不足,本文提出一种新颖的基于高阶相似网络的协同传播模型FPDSF来预测潜在的药物−副作用频率. 相较于已有的副作用频率预测模型,FPDSF的优势主要有:① 在药物−副作用频率预测问题的研究上,首次使用“频率值传播”机制进行模型的训练与预测;② 在传统的相似网络构建方法中加入“邻域学习项”,使构建相似网络变为自适应的学习过程,显著提高了模型性能;③ 通过高阶邻居节点进行频率信息的传播,相比于在两个直接相连的节点间进行信息传播的方法,获取了更全面的节点频率信息;④ 现实中很多药物和副作用的特征数据往往难以获取,而FPDSF模型只需以已知的副作用频率信息作为输入即可达到较高的预测准确率,能在较少的信息下实现较好的性能.
编辑出版:云南大学学报(自然科学版)编辑部
地址:昆明市呈贡区云南大学呈贡校区云南大学学报(自然科学版)编辑部
邮政编码:650500
电话:0871-65031498(传真) 65033829(办公室); 65031662
Email:
yndxxb@ynu.edu.cn
,
yndxxb@vip.163.com
滇ICP备12004993号-2
北京仁和汇智信息技术有限公司
开发
技术支持:
info@rhhz.net