聚类分析与可视化_三维聚类可视化

什么是聚类分析

百度百科对“聚类分析”一词是这样解释的： 聚类分析是指将物理或抽象对象的集合分组为由类似对象组成的多个类的分析过程 。简单地来说，聚类分析就是将一组元数据划分为多个类或簇，同一个簇中的数据具有很大的相似性，而不同簇中的数据具有较大的差异性。 聚类与分类是不同的 ，因为聚类所要求划分的类是未知的，这与机器学习中的 无监督学习 【1】过程相似。也正因为聚类过程是没有明确方向的，所以不同的聚类方法往往会得到不同的结果，这就要求人们对聚类结果的质量进行量化。目前为止，常用的评价指标包括了 Purity（纯度）、Entropy（熵）、Accuracy（准确率）、NMI（归一化互信息）、ARI（调整兰德指数） 【2】等。

XCluSim 的诞生

自从Eisen实验室推广了微阵列数据的聚类分析和可视化【3】，聚类分析已经广泛应用于生物信息学界。随着遗传探测技术在容量和准确性方面的快速提高，聚类分析在高吞吐量探测技术产生的大数据描述性建模（分割或分区）中发挥着更加重要的作用。但是，对于各种聚类分析算法的结果质量，尽管已经有了一些评价指标，在大多数实际研究项目中，其仍是由经验人员进行主观评判的，且往往仅特定于目标应用，并不具有普适性。为了选择数据集的最佳聚类方法及其参数，研究人员必须运行多个聚类算法并进行比较，而这种比较任务往往是十分苛刻和费力的。于是，为了解决这个问题，该章节的作者们开发了一款专门面向生物信息大数据的聚类结果可视化分析软件—— XCluSim 。该软件基本满足了以下4个设计目标：
（1）方便在不同层面上对多种聚类结果进行可伸缩的视觉比较；
（2）支持生成多种聚类结果；
（3）促进对各种聚类算法的特性及其结果中参数的理解；
（4）为不同类型的单个聚类结果提供有效的专用可视化。

XCluSim 的优势

很遗憾的是，我们小组并没有找到获取 XCluSim 的途径，所以我们并没有亲身体验过 XCluSim 的强大功能。但是，通过对该章节内容的系统学习，我们已经深刻体会到该系统设计的严密性以及丰富的层次性，所以我们希望通过我们的简单介绍能让大家对这款软件有一个初步的了解。

（一）比较多个聚类结果

XCluSim 部分工作界面如下：

显然，上图一共被分为五个部分：
（a）参数信息视图 ，向用户提供了所有聚类结果的参数概述。该视图被垂直划分为多个子视图，每个子视图对应单独的聚类算法。每个子视图内部又被划分为多个矩形区域，分别表示该聚类算法的不同参数。
（b）强定向布局概览 ，其通过物理距离直观地展示了各种聚类结果的相似性。在该视图中，每个聚类算法的结果都被表示为一个嵌入了饼状图的节点。其中，聚类结果越相似的节点靠得越近，而饼状图则向用户直观地展示了集群的数量和大小。
（c）树状图概览 ，其功能与强定向布局概览类似，都是向用户展示多种聚类结果的整体相似性。不同的是，该概览使用了更熟悉的可视化组件（即树状图），且相较于强定向布局概览，它节省了更多的空间而不会出现遮挡。
（d）增强版并行集视图 ，其更加详细地展示了多个聚类结果之间的一致性和不一致性。在并行集视图中，每一行水平的堆叠条都表示了一种聚类结果，而水平堆叠条中的每个条都表示聚类结果中的一个簇。除此之外，相邻两行堆叠条之间还存在许多宽度不一的线条，通过线条相连的簇具有某些相同的“稳定項”，而线条的宽度则表示了该稳定項的大小。用户可以通过调节视图底部的直方图来控制所显示稳定項的大小范围。
（e）列表视图 ，其通过分组模式和热图模式向用户具体地展示了所访问聚类结果的详细信息。在分组模式下，用户可以查看稳定组的数据；而在热图模式下，用户可以查看原始数据。

（二）查看单个聚类结果

XCluSim 部分工作界面如下：

上图主要组成如下：
（a）树状图与热图的组合 ，用于分层显示聚类结果。
（b）簇级别的强定向布局 ，用于显示同一聚类结果中不同簇之间的相似性，其中的折线表示每个簇中所有成员对象的平均模式。
（c）SOM聚类【4】结果的通用蜂巢状可视化 ，其中每个六边形单元格都表示聚类结果中的一个簇。每个单元格的背景强度代表了相应簇的大小，而中间的折线图则显示了聚类成员的平均模式。
（d）可达性图及OPTICS平行坐标图 ，OPTICS会计算每个項的可达性距离。（略，这一块实在没看懂…）

（三）小结

通过对以上内容的学习，我们发现整个 XCluSim 的设计过程基本满足人们对于视觉信息的搜索认知： 先概览，再缩放和过滤，以及按需获取详细信息 。这种设计思路是十分值得我们进行借鉴和学习的。另外， XCluSim 中对于 颜色编码 的使用也十分的巧妙。它使用了一种叫做Tree Colors【5】的颜色编码策略，它是为树状数据设计的，用于表示节点之间的相似性。其基本思路是 父节点色调范围的一部分会通过递归的方式分配给它的子节点，这样就能使具有相同父节点的子节点具有相似的颜色 。

据文章所言， XCluSim 可以很好地帮助生物学家挖掘某些基因的表达能力，具体案例包括了诸如 阐明铁氧化酶在新型隐球菌中的作用 等。在整个实验流程中，研究人员利用 XCluSim 对实验数据的多种聚类分析结果进行观察和比较，从中寻找某些比较稳定的簇群，而这些簇群往往代表着某些能够影响表达的基因序列。因为我们的小组成员都不是从事生物方向的，对于各种生物术语和实验流程的整体把握度还不够，所以就不在这里对具体实验实例进行过多阐述。

因为网上关于 XCluSim 这款软件的信息实在少得可怜，我们小组也没能够进行具体的尝试，无法对其作出具体的评估，所以只能在网上寻找一些我们认为能够帮助读者理解这篇文章内容的资料。具体内容如下：
（1）使用python演示如何通过聚类分析寻找共表达基因【6】。该文章详细地介绍了 如何模拟数据集，如何使用K-means算法进行聚类分析，如何进行数据提取和可视化 等步骤。

聚类模拟过程如下：
（来自 https://commons.wikimedia.org/wiki/File:Kmeans_animation.gif）
在这里插入图片描述
（2）一种基于语义的大型图像集可视化方法【7】。这是IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS期刊于2018年发表的一篇文章。虽然该文章主要介绍的是一种针对大型图像集的可视化方法，但我们认为它的某些设计思想对 XCluSim 的发展有一定的帮助。该论文所描述的系统使用了 星系比喻 ，其合理地使用各个独立的星系（如太阳系）来表示不同的簇，而星系中的恒星（如太阳）代表了该星系的特征，星系中的行星（如地球）和其他天体代表了簇中不同的对象个体。簇与簇之间的相似性可以用星系间的距离表示，簇的大小可以用星系的体积表示，簇中各个对象之间的相似性也可以通过空间距离来表示。相较于2D空间，星系比喻所使用的3D空间能够带给用户更加直观的感受和层次更加丰富的信息，我们相信这种方式能够更好地帮助 XCluSim 的用户理解和分析单个聚类算法的结果。

星系比喻的部分界面如下：

（3）基于MNIST数据集的无监督学习的一种简单应用——Encoder编码器【8】。其基本原理实际上就是 将高维特征进行压缩降维编码，最后直观地在二维平面或三维空间中显示数据的聚类情况 。

Tensorflow平台下的具体代码如下：

import tensorflow as tf
import matplotlib.pyplot as plt
from tensorflow.examples.tutorials.mnist import input_data
本文探索了聚类分析，聚类的可视化以及通过探索特征进行聚类的可解释性。
尽管我们已经看到大量的监督机器学习技术被应用，但这些方法通常存在一个大问题，需要标记的数据。幸运的是，有许多非监督方法用于将数据聚类到以前不可见的组中，从而可以从你的客户中提取新的见解。
本文将指导你了解客户聚类的来龙...
				2005年由匈牙利Department of Process Engineering University of Veszprem的Balazs Balasko, Janos Abonyi and Balazs Feil编写的模糊聚类及数据分析工具箱。
代码很全面，包括文档说明。
包括聚类算法Kmeans Kmedoids FCM GK GG，聚类评价方法，聚类降维可视化方法。
其中，说明文档我做了书签，便于大家阅读。
PS：本来没打算索要资源分，因为是人家开源发布的东西。但是，上传资源的时候点选了资源分，就没有0分的选项，最后只能选择这个最低1分了。如果没有帐号或者资源分不够，可以联系我，我分享给你们。或者去找原资源网站，或者去可以不收取资源分的地方下载吧！大家共同学习进步！
QQ：379786867（亦可微信）
				大连交大一位马同学的硕士论文。设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统，可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几
组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较，验证改进算法的有效性。实验结果表明：并行K-means算法的聚类结果与串行算法相同，但执行效率得到了很大的提高。
				文章目录一、TSNE参数解析
  TSNE的定位是高维数据可视化。对于聚类来说，输入的特征维数是高维的(大于三维)，一般难以直接以原特征对聚类结果进行展示。而TSNE提供了一种有效的数据降维模式，是一种非线性降维算法，让我们可以在2维或者3维的空间里展示聚类结果。
一、TSNE参数解析
  t-SNE是一个可视化高维数据的工具。它将数据点之间的相似性转换为联合概率，并试图最小化低维嵌入数据和高维数据联合概率之间的KL散度。t-SNE具有非凸的代价函数，即不同的初始化可以得到不同的结果。
class skle
                    CSDN-Ada助手: 
                    非常感谢您的分享，Magic Network看起来很有趣！我建议您可以写一篇关于“神经网络在游戏中的应用”的博客，探讨一下神经网络如何在游戏中实现交互和智能化，这样的技术文章对其他用户也会非常有帮助。下一篇你可以继续就这个主题继续写，相信会有更多读者会关注和支持您的文章！
为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
                《Magic Network》：一个小孩都能玩的神经网络交互系统
                    装进可乐瓶: 
                    请问作者有没有代码可以分享呀~？
                无锡“比弗利”马拉松可视化网页
                    qq_38099945: 
                    怎么获取每位参赛者的位置呢？
                手绘与码绘的比较——实战之梵高《星空》
                    qq_42810183
求问您现在有代码了嘛？
                手绘与码绘的比较——实战之梵高《星空》
                    qq_42810183: 
                    博主太强了！！可以求一份完整代码学习吗？