计算数据中心的动态数据聚集算法研究

翁子寒

（上海儿童医学中心，上海200127）

摘要：目前，计算数据中心设计动态数据聚集算法，通过仿真实验进行验证分析，表明动态数据聚集算法能够保障计算数据中心的服务质量，提高计算机设备稳定性，提升计算机数据中心的服务质量，并且还可以在不同时段动态分配数据使用，实现有效的聚集数据分配模式，从而确保系统计算存储节点可以轮流运转，提升计算机数据中心区域温控设备的精度，充分利用计算数据中心资源，满足用户的实际服务需求，降低计算数据中心系统动态数据分配能耗。

教育期刊网 http://www.jyqkw.com
关键词：计算数据中心；动态数据；聚集算法；仿真实验

中图分类号：TN919.2?34 文献标识码：A 文章编号：1004?373X（2015）17?0142?02

本研究针对当前计算数据中心的动态数据分配及数据分配方法中存在的问题，其局限性、公式复杂、算法运行效率低等弊端，提出动态数据聚集算法，并结合计算数据中心实际情况进行改进，仿真研究动态数据聚集算法在计算数据中心的应用效果。

1 浅析动态数据聚集算法

动态数据聚集算法中，聚类是数据挖掘中一类重要的问题，在许多领域有其应用之处。聚类的定义是：给定一个由许多数据元素组成的集合，将其分为不同的组（类、簇），使得组内的元素尽可能相似，不同组之间的元素尽可能不同[1]。在动态数据聚集算法中，其数据流具有以下特点：数据实时到达，数据到达次序独立，不受系统控制；数据量巨大，不能预知其大小；单次扫描，数据一经处理，除非特意保存，否则不能再次被处理。由于计算机数据中心数据流的特点，要求数据压缩表达，并且可以迅速、增量地处理新到达的数据，要求该算法可以快速、清晰地识别离群点。

2 计算数据中心应用动态数据聚集算法实现对动态聚类算法中的数据流，在每一个时刻，动态聚类算法的在线部分连续地读入一个新的记录，将多维的数据放置到对应多维空间中的离散密度网格。在第一个gap时间内产生了初始簇[2]，然后，算法周期性地移除松散的网格以及调整簇，由于不可能保留原始数据，D?Stream将多维数据空间分为许多密度网格，然后由这些网格形成簇，如图1所示。

文本中，假设输入的数据有d 维，在计算机数据中心空间中定义数据：

S = S1 × S2 × … × Sd

在动态数据聚集中，可以将d 维的空间S 划分成密度网格。假设对于每一维，它的空间是Si，i = 1,2,?,d被分为pi 个部分。

3 计算数据中心动态数据聚集算法仿真研究

3.1 仿真试验环境搭建

对于计算数据中心动态数据聚集算法，针对动态数据聚集算法实施仿真试验，在一台带有1.7 GHz CPU和256 MB内存的PC上进行，用VC++ 6.0以及一个Matlab图形接口实现动态聚类算法仿真。研究其算法性能及结果准确性，数据中心将10个节点存放于一个机架上，环境参数见表1。

在动态数据聚集算法仿真试验中，可以设置：Cm =3.0，Cl = 0.8，λ = 0.998，β = 0.3，使用两个测试集。第一个就是测试数据集，也是一个真实的数据集合KDDCUP?99，它包含由MIT 林肯实验室收集的网络入侵数据流。也使用人工数据集测试动态聚类算法的伸缩性。这个人工数据集包含的数据数量从35 000~85 000不等，簇的数目被设定为4，维度的数目范围[3]从2~40。在动态数据聚集算法仿真试验中，将数据集的所有属性规格化为[0，1]。每个维度被均匀地分为多个数据段，每个段的长度为len。

3.2 仿真结果评估

将评估计算数据中心的动态聚类质量与效率与传统计算数据中心的算法进行比较，本文算法能提高算法时间、空间效率，对于计算中心高速的数据流不损失聚类质量，有独特的优势，准确地识别实时数据流，并实施演化行为。计算数据中心动态聚类算法与传统数据分配算法相比，数据准确性得到提升，为98.2%，常规数据分配准确率为83.6%，有明显优势（P<0.05）。计算数据中心动态聚类算法的应用，可以提升计算数据中心系统的稳定性。

4 总结

基于计算机数据中心数据分配中，在数据中心网络技术基础上，由于数据节点可以自由移动，这样会降低数据分配进度，从而降低系统性能，导致计算机数据中心网络维护开销过高。故此，针对计算机数据中心数据分配，应该改进传统静态数据流数据方法，实现动态数据聚集，减少信息冗余，提升数据计算效率及安全性。