范文无忧网面试笔试简历简介

基于网格的聚类方法研究

12月17日 编辑 fanwen51.com

[电气自动化控制设备的可靠性测试方法研究]近几年,随着电气自动化控制技术的不断发展与进步,电气工程以及电气自动化已经被广泛的应用但各行各业当中,小到一个简单的开关设计,大到复杂的航天飞机的研制,都会应有当电...+阅读

申请学位必须提交相应的学位论文,经答辩通过后,方可取得学位,下面文书帮小编给大家带来一篇论文范文,欢迎阅读与参考!摘要:已有的聚类算法对于发现任意形状的聚类和处理离群点效果不理想,分析了现有基于网格的聚类算法。使用网格方法的数据分析方法将空间划分为由(超)矩形网格单元组成的网格,然后在网格单元上进行聚类。最后,总结全文并提出基于网格的聚类需要进一步研究的方向。

关键词:数据挖掘;网格;聚类1 引言数据挖掘是指从大型数据库或数据仓库中提取隐含的、未知的及有应用价值的信息或模式。它是数据库研究中的一个很有应用价值的领域,融合了数据库、机器学习、统计学等多个领域的理论和技术[1]。聚类分析是数据挖掘中广为研究的课题之一,是从数据中寻找数据间的相似性,并依此对数据进行分类,从而发现数据中隐含的有用信息或知识。目前已经提出了不少数据聚类算法,其中比较著名的有CLARANS[2]、BIRCH[3]、DBSCAN[4]和CLIQUE[5]等。

但对于高维、大规模数据库的高效聚类分析仍然是一个有待研究的开放问题。网格方法是空间数据处理中常用的将空间数据离散化的方法。基于网格的聚类算法由于易于增量实现和进行高维数据处理而被广泛应用于聚类算法中。研究人员已经提出了很多基于网格的聚类算法,包括STING[6],它利用了存储在网格单元中的统计信息;WeCluster[7]它用一种小波转换方法来聚类数据对象;CLIQUE在高维数据空间中基于网格和密度的聚类方法等。

本文对已有的基于网格的聚类算法进行了研究,从网格的表示,划分网格单元的方法,到统计网格内信息,搜索近邻网格单元,聚类超过指定阙值的网格单元的各个步骤进行了分析,最后对基于网格方法聚类的研究方向做了展望。2 网格的定义与划分网格的基本概念,设A1, A2,, Ar 是数据集O={O1, O2,, On }中数据对象的r 个属性的有界定义域,那W=A1 A2 Ar 就是一个r 维空间, 将A1,A2 ,, Ar 看成是W 的维( 属性、字段),则对于一个包含n 个数据点的r 维空间中的数据集O={O1 , O2 ,, On },其中Oi ={Oi1 , Oi2 ,, Oir }( i=1, 2,, n) , Oi 的第j 个分量Oij Aj 。

将W的每一维M等分,即把W分割成个网格单元。基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同, 主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。2.1 由底向上的划分方法由底向上的网格划分方法按照用户输入的划分参数(即每维段数ki,1 i d),将数据空间均匀划分为相等大小的网格单元,假设落入同一网格单元内的所有数据点都属于同一个簇,每个网格单元保存落入其内数据的统计信息,比如数据点个数,数据点之和。

包含一定数目数据点的网格单元被称为高密度网格单元。WeCluster与CLIQUE是采用由底向上网格划分方法的代表性算法。WeCluster处理低维空间数据,它的性能超越了BIRCH、CLARANS,与DBSCAN等优秀的聚类算法[15]。CLIQUE考虑了高维子空间聚类,但它的时间复杂度较高,需要用户指定全局密度阈值。算法MAFIA[8]对CLIQUE进行了改进,为了减少聚类算法需要处理的网格单元数目,MAFIA将均匀划分网格中每一维上数据分布密度相似的相邻段合并,由此得到一个不均匀划分的网格。

这个网格在数据分布较均匀的区域划分粒度大,在数据分布不均匀的区域划分粒度小,这种不均匀划分网格的方法能够提高聚类的质量,被后续的许多算法所采用。采用由底向上的网格划分方法的优点在于,它能通过对数据的一遍扫描,将数据压缩到一个网格数据结构内,并基于这个网格数据结构,发现任意形状的簇。此外,如果网格单元的粒度较小(即体积较小),那么得到的聚簇的精度较高,但是算法的计算复杂度较大。

此外,由底向上的网格方法存在不适合处理高维数据的问题。在高维空间,数据的分布是非常稀疏的,网格方法失去其压缩作用,而且属于同一个簇的高密度网格单元也可能不相连,这使聚类算法不能发现合理数目的簇。2.2 自顶向下的划分方法自顶向下的网格划分方法采取分治的策略(divide and conquer principle),对数据空间进行递归划分,使问题的规模不断减小。首先将原数据空间划分为几个较大的区域。

对于每个得到的区域,划分过程反复执行,直到每个区域包含属于同一个簇的数据点,那么这些区域就是最终的网格单元。基于自顶向下网格方法的聚类算法直接将高密度网格单元识别为一个簇,或是将相连的高密度网格单元识别为簇。OptiGrid[9]与CLTree[10]是两个典型的基于自顶向下网格划分方法的聚类算法。其中, OptiGrid则是用空间数据分布的密度信息来选择最优划分。通过一个密度函数来决定切割平面,可以将数据空间划分为规则的或不规则单元,与传统的等间距的划分相比,可以用此来解决高维聚类的问题。

而CLTree用划分后的信息增益来选取最优划分。自顶向下划分方法的主要优点在于不需要用户指定划分参数,而是根据数据的分布对空间进行划分,因此这种划分更为合理。数据空间维度对自顶向下网格方法的影响较小,可以快速将大型高维数据集中的簇分隔开。这一类方法的计算复杂度与数据集大小和维度都呈线性关系适合于处理高维数据。由于划分是基于数据分布的,而通常认为噪音是在整个空间均匀分布的,所以自顶向下划分方法对噪音不敏感。

但是,由于这种方法得到的网格单元的体积远大于由底向上网格方法中的网格单元体积,因此方法产生的簇的描述精度比由底向上的网格方法得到的簇的描述精度要低。而且在自顶向下的划分过程中,同一个簇可能被划分到不同的区域中,最终得到的同一区域也可能包含不同的簇,这样就进一步降低了算法的正确度。这类划分方法的另一个缺点是它在划分过程中,需要对数据集进行多次扫描。

而由底向上划分方法在于只需对数据集进行一次线性扫描以及较高的簇的描述精度。因此,两类方法适用于不同的问题。前者适于处理高维数据集,后者能有效处理存取代价较大的超大型数据集与动态数据。基于网格的聚类方法研究

延伸阅读:

新生儿监护室配奶感染控制与护理方法研究毕业论文是教学科研过程的一个环节,也是学业成绩考核和评定的一种重要方式。毕业论文的目的在于总结学生在校期间的学习成果,培养学生具有综合地创造性地运用所学的全部专业知...

网格技术在网络教育资源共享中的应用眼看毕业在即,大学生们都在着急写论文,那如何才能写出一篇优秀的毕业论文呢?如何在一大堆论文中脱颖而出?小编直接为您展示优秀毕业论文一篇,欢迎毕业生们阅读参考! 网格技术在...

机床的数控化改造方法研究以下是小编整理的关于机床的数控化改造方法研究的论文! 摘要:本文将对机床的数控化改造进行科学分析并从数控系统和机械系统的改造等方面提供可行性方案和思路。 关键词:普通...

建筑土建施工过程中的质量控制方法研究本论文就建筑土建施工过程中的质量控制方法研究进行了论述,欢迎大家借鉴!摘要:对于建筑工程而言质量是永恒话题,它对于工程起着至关重要的作用,特别是在工程完成后的使用。因为...

分析计算机网络服务质量优化方法研究分析计算机网络服务质量优化方法研究是小编为各位计算机网络的同学推荐的论文,希望对大家有所帮助! 摘要:当今社会随着经济水平日益增长,互联网技术也逐渐普及,成为了人们生活中...

《幼儿语言表达方法研究》开题报告《幼儿语言表达方法研究》开题报告 课题"幼儿语言表达方法研究"是我在真实、客观、科学基础上提出的。相信经过我的努力实践,一定能取得满意的成果,下面就本课题的研究背景、...

初中语文预习方法研究开题报告初中语文预习方法研究开题报告 郝巧芳 一、选题缘由 时代在发展,好多学校的生源都来自于外来务工子弟,这些学生的家庭教育及环境的普遍薄弱,导致学生对教师的依赖性较强,课前没...

小学低年级学生良好倾听方法研究开题报告小学低年级学生良好倾听方法研究开题报告 延安市宝塔区中石油小学 张小莉 一、问题的提出 不倾听怎能独立思考,没有独立思考怎么会有自己的观点,怎么能与他人交流,更不会从别...

高中物理学习方法研究高中物理学习方法研究,下面带来高中物理学习方法研究相关论文范文,欢迎阅读。 高中物理学习方法研究【1】 【摘要】高中物理往往被学生看做较难的科目,上课时觉得容易,但在做题...

推荐阅读
图文推荐
栏目列表