在现如今的后基因组时代, 对细胞间模块以及基因的关系进行系统分析和全面了解是一个非常重要的课题.随着生物信息学的高速发展, 基因组学中大规模的高通量技术, 如基于质谱的串联亲和纯化[1, 2]、酵母双杂交[3, 4]以及蛋白芯片技术为我们提供了海量的大规模生物网络, 也为我们对生物网络进行系统的分析创造了可能.
众所周知, 蛋白质很少单独行动, 它们往往结合在一起形成复合体在生命体中进行生物功能[5].蛋白质复合体的综合研究有助于揭示蛋白质-蛋白质相互作用网络的结构、预测蛋白质的功能, 更有助于阐明各种疾病的细胞机制[6].经过10多年的快速发展, 已经涌现出了许多基于不同聚类机理的蛋白质相互作用网络功能模块检验方法.
尽管在此方面已经有不少研究, 但是这些方法主要关注静态的蛋白质相互作用网络, 而忽略了蛋白质功能作用的动态变化及组织特异机制.幸运的是, DNA微阵列技术的出现, 使数以千计的基因的差异表达的各种实验条件被同时且定量监视, 它提供了许多有关于时间以及组织特异的信息[7].目前也有少许算法研究动态网络, 并探测动态复合体, 但还没有算法涉及到组织特异的复合体侦测.
本文通过结合组织特异性基因表达数据以及人类蛋白质相互作用网络构建出一系列组织特异性蛋白网络, 尝试探索组织特异功能模块的研究.本文的主要方法为对所构建的组织特异性蛋白网络利用多种方法对其进行聚类, 并对结果进行组装, 最后使用非负矩阵分解模型对组装的结果进行有效合并.实验结果表明, 本文的方法与其他聚类方法相比, 在检测蛋白质复合体上结果更好.
因为组织特异性蛋白复合体对于理解生物学功能以及确定生物标志物和功能靶标十分重要[8], 因此探索组织特异功能模块很有必要.
在本节中, 本文首先介绍如何构建组织特异性蛋白网络, 随后介绍如何检测组织特异性复合体.
组织特异性蛋白网络是结合蛋白质相互作用网络以及组织特异性基因表达数据两者来构建的.给定一个PPI网络, 可以用图$G=(V, E)$来表示[9], 其中$V$包含$|V|=N$个蛋白质, 而$E$包含$|E|$条边.图$G$可以表示成一个邻接矩阵$A$, 其中若有一条边连接蛋白质$i$与$j$, 则$A_{ij}=1$, 否则$A_{ij}=0$, 在这种情况下, 识别蛋白质复合体这一问题就转化为点的聚类问题.组织特异性基因表达数据是这$N$个蛋白质在$T$个组织中的基因水平, 可以用一个$N\times T$维矩阵$F$表示.
本文将利用矩阵$A$以及矩阵$F$来构建组织特异性蛋白网络.若蛋白质$i$与$j$有相关关系, 即$A_{ij}=1$, 并且在组织$t$中, 蛋白质$i$与蛋白质$j$均显著表达, 即$F_{it}>0$并且$F_{jt}>0$, 则蛋白质$i$与蛋白质$j$在组织$t$中存在相关关系.根据上述方法, 对$T$个组织进行构建, 则可得到$T$个组织特异性蛋白网络.
在本节中, 本文先对组织特异性蛋白质相关关系网络中的每一个组织分别使用基本聚类方法, 并使用非负矩阵分解模型来合并相似组织特异性蛋白质复合物, 得到新的复合体, 算法的基本流程如图 1所示.
本文首先利用7种基本的聚类方法分别对这$T$个组织特异蛋白网络进行聚类, 构建蛋白质复合体, 所用的7种方法分别为MCL、MCODE、MINE、ClusterONE、DPClus、SPICi、CoAch.
MCL是通过模拟在PPI网络中流的自由行走来检测蛋白质复合体的经典算法, 它定义了指派节点概率的Expansion操作和改变节点游走概率的Inflation操作来模拟随机游走的扩展和收缩行为[10, 11].
MCODE是一种基于蛋白质的连接值来检测蛋白质复合体的计算方法, 它首先利用节点的局部邻域密度给PPI网络中每个节点进行加权, 然后选择具有最高权值的节点作为初始聚类的种子节点, 并由种子节点向外扩张形成最后的簇(蛋白质模块)[11, 14].
MINE是一种类似于MCODE的凝聚聚类算法, 但它使用了一个改进的顶点加权策略, 并且可以衡量网络模块性, 而这两者都有助于避免使用生长群内包含的临界点来定义模块的边界[13].
DPClus是一种通过簇边界的跟踪进行聚类的算法, 它不仅利用模块密度而且利用新定义的粗特性CP完成复合体检验[11, 14].
ClusterONE是一种能识别带重叠的蛋白质复合体的一种算法, 它依赖于重叠领域扩张[15].
CoAch是一种利用核心依附关系进行复合体检测的算法, 该算法分为两个阶段, 第1阶段从邻接图中定义核心顶点, 然后从中检测蛋白质复合体的核心蛋白质, 第2阶段为将附属蛋白质逐个连接到核心蛋白质所代表的复合体中[11, 16].
SPICi是一种高效算法, SPICi种子集群根据其加权度的节点, 如果支撑足够高, 并且集群的密度低于用户定义的阈值, 则此非集群节点将会添加到集群中, 否则, 群集被输出, 这个簇的节点将会从网络中移除[17].
对每一个组织, 分别使用上述7种聚类方法, 可以得到7个复合体矩阵$V_1, V_2, \cdots, V_7, V_i$ $(i=1:7)$为$N\times P_i(i=1:7)$矩阵, 其中$N$代表蛋白质的个数, $P_i$为第$i$种聚类方法所识别的蛋白质复合体的个数.对于矩阵$V_i$, 若蛋白质$N_i, N_j, \cdots, N_k$组成第$e$个复合体$(1 < =e < =P_i)$, 则在第$e$列中, 除了蛋白质$N_i, N_j, \cdots, N_k$所对应的元素为1外, 其余元素为0.将这7个复合体矩阵$V_1, V_2, \cdots, V_7$横向排列, 得到矩阵$V=[V_1, V_2, \cdots, V_7]$, $V$为$N$行$P$列的矩阵$(P=\sum\limits_{i=1}^{7}P_i), $依造此方法, 可构建出$T$个矩阵.
接着, 我们使用了非负矩阵分解模型来合并相似瞬时蛋白质复合物.它提供了一种对非负矩阵的低秩逼近, 并且已被广泛地运用到聚类当中[18, 19]. Lee和Seung的非负矩阵分解方法, 设定模型为
利用更新法则
最后得到矩阵$W$ ($N\times K$)和$H$ ($K\times P$), 本文只对矩阵$W$进行研究, 将其横向归一, 即令$U_{ik}=W_{ik}/W_{i.}.$得到$U$之后, 设定过滤阈值$\tau$, 若$U_{ij}>\tau$, 则蛋白质$N_i$是复合体$K_j$的组成部分.由上可知, 本次算法共有两个参数, 所识别的复合体的个数$K$以及过滤阈值$\tau$.由于复合体大多是由3个及3个以上的蛋白质组合而成, 因此对所识别出的复合体进行过滤, 将蛋白质个数 < 2的复合体舍去.
本文从BIOGPS项目中的Affymetrix数据集中获得了83个人体组织和细胞系的转录水平[20], 并从BioGrid网站[21]中下载到人体蛋白质-蛋白质相互作用关系, 构建了83个组织特异性蛋白网络, 具体处理数据以及构造方法详见文献[20], 本文挑选了蛋白质对个数$>$10000的26个组织进行分析, 这26个组织或者细胞分别为: BDCA 4$+$树突状细胞、支气管上皮细胞、CD105$+$内皮、CD19$+$B细胞、髓细胞、造血干细胞、CD4$+$ T细胞、CD56+自然杀伤细胞、CD71$+$早期红细胞前体细胞、CD8$+$T细胞、心脏肌细胞、肠和直肠腺癌、慢性粒细胞性白血病k -562、早幼粒细胞性白血病淋巴细胞(MOLT-4)、白血病HL-60、淋巴瘤burkitt(Daudi)、淋巴瘤burkitt(Raji)、日间松果体、夜间松果体、前额叶皮层、视网膜、前列腺、平滑肌、甲状腺、全血.
为了衡量所检测出的复合体的精确性, 本文选择了一个广泛使用的复合体标准作为黄金标准, 该标准是从哺乳动物蛋白质复合体的CORUM[22]数据库中得到, 最终获得由2151个蛋白质组成的324个复合体, 本文中只选取其中蛋白质个数大于3个的复合体.
我们将判断预测的复合体是否能很好地对应到已知的复合体作为评判标准. ACC[23]是用来测量几何精度的, 在这项研究中, 它被用来评估预测的复合体与参考的复合体之间的相似性. MMR (the Maximum Matching Ratio)由Paccanaro提出的用来评估相对于参考蛋白质复合体来说预测的蛋白质复合体是否符合期望的一个评价标准.
MCL有一个用来调整聚类的间隔尺寸的参数, 俗称膨胀率, 本文设定其取值范围从3.0到5.0, 步长为0.2; MCODE设定蛋白质个数为3, 其余参数默认; MINE设定蛋白质个数为3, 其余参数默认; DPCLUS有两个参数, 最小密度$d$以及最小聚类性质参数$cp$, 本文设定其值分别为0.7以及0.5; ClusterOne参数设为默认; CoAch有一个参数$\omega$, 用来过滤冗余的核心蛋白质, 本文设定取值范围为0.225到0.925, 步长为0.05; SPICi有两个参数, 其中我们设定密度阈值这一参数的取值范围为0.1到1, 步长为0.1.
对于以上7种算法, 挑选出使得每种算法的ACC和MMR的调和平均数最大的参数值作为最后选定的参数值.
本文的算法中, 共有两个参数$K$以及$\tau$, $K$为所识别的蛋白质复合体的个数, 根据过往者的经验, 设定其取值范围从600到1600, 步长为200, $\tau$为过滤阈值, 设置其取值范围为0到0.9, 步长为0.1.在对26个组织分别进行上述算法后, 得到表 1.
在对所有组织计算中发现, 一般复合体个数在600--2000并且阈值在0或者0.1的情况下表现良好, 由于篇幅有限, 仅挑选出4个组织进行参数分析, 分别为:甲状腺、B细胞、前额叶皮层、T细胞, 如图 2.
在这一章中, 我们将本文的算法与其他7种算法对这26个组织或者细胞的蛋白质网络进行聚类之后的结果进行比较.对于其他7种基本聚类方法, 我们取其ACC和MMR的调和平均数为这26个组织最后的结果, 从表 1中可以看出, 本文的算法最后得到的ACC值在24个组织中处于最大值, 两个组织中居于第二.
本文将26个组织所用的7种方法得到的最高值与本文所用的方法进行比较, 提升最高的组织是前列腺, 提高值为13%.在与其他7种方法分别单独比较时, 提高最高的百分比分别为: 51.61%、33.33%、39.53%、122.22%、27.03%、25.00%、27.91%, 具体提升情况可参见图 3, 从图中我们可以看出, MCODE算法所得到的结果最差, 在26个组织中, 使用非负矩阵分解得到的结果均比其提高30%以上; 其次是MCL, 提高了8%到40%;而CLusterONE表现最好, 有两个组织比本文的算法分别高出1.96%、3.08%.
从上述结果中可以看出, 本文所提出的算法与其他7种方法相比是具有优越性的.
组织特异性蛋白质复合体对于理解生物学功能以及确定生物标志物和功能靶标十分重要, 这也是本文的研究动机.同一个蛋白质在不同的组织中会与不同的蛋白质相结合, 举例来说, 转运蛋白1(TNPO1) 在树突状细胞中与蛋白质CD4、PPP3CA、TNPO3结合, 在髓细胞中与SRP19、TNPO3相结合, 而在平滑肌中则与蛋白质IPO5、IPO7、NUTF2、RAN、SRP19结合形成复合体, 由此可以看出在不同的组织中其会与不同的蛋白质相结合, 而TNPO1与TNPO3则同时出现在不同组织的同一个复合体中, 这与生命活动也是相符合的.
在真正的生命活动中, 蛋白质会在不同的组织中与不同的蛋白质相结合, 而许多现有的检测蛋白质复合物模型都是在静态PPI网络模型中直接检测, 而忽略了蛋白质复合体的空间特异性.本文利用多种方法对不同的组织构建组织特异性蛋白质相互作用网络, 并使用非负矩阵分解模型对其他聚类结果进行合并聚类, 并在获取组织特异性蛋白质复合体时得到了良好的结果.同时, 本文也有一些不足, 虽然本文的结果在ACC标准中表现良好, 但在MMR这一标准中仍需改进, 同时, 本文仅选取一个黄金标准复合体, 在接下来的工作中, 我们可以参考多组黄金标准复合体进行方法之间的比较.