Python语言PPT14.5DBSCAN聚类算法.ppt
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 语言 PPT14 DBSCAN 算法
- 资源描述:
-
1、问题问题 基于划分的聚类算法的弱点基于划分的聚类算法的弱点不适合用来发现具有非凸形状的簇不适合用来发现具有非凸形状的簇解决方法:基于密度的聚类解决方法:基于密度的聚类DBSCANDBSCAN是一个基于密度的是一个基于密度的聚类算法聚类算法.(其他聚类方法大其他聚类方法大都是基于对象之间的距离都是基于对象之间的距离进行聚类,聚类结果是球进行聚类,聚类结果是球状的簇状的簇)基于密度的聚类是寻找被基于密度的聚类是寻找被低密度区域分离的高密度低密度区域分离的高密度区域。区域。DBSCAN算法的基本思想算法的基本思想 该算法将簇定义为密度相连的点的最大集,将具该算法将簇定义为密度相连的点的最大集,将具有
2、高密度的区域划分为簇。有高密度的区域划分为簇。特点:不需要指定聚类的个数,聚类簇的形状可特点:不需要指定聚类的个数,聚类簇的形状可以是任意的。以是任意的。密度的定义密度的定义传统基于中心的密度定义为:传统基于中心的密度定义为:数据集中特定点的密度通过该点数据集中特定点的密度通过该点EpsEps半径之内的点计数半径之内的点计数来估计。来估计。显然,密度依赖于半径。显然,密度依赖于半径。传统的密度定义:基于中心的方法传统的密度定义:基于中心的方法 基于密度定义,我们将点分为:基于密度定义,我们将点分为:稠密区域内部的点稠密区域内部的点(核心点核心点)稠密区域边缘上的点稠密区域边缘上的点(边界点边界
3、点)稀疏区域中的点稀疏区域中的点(噪声或背景点噪声或背景点).).DBSCAN核心点核心点(core point)core point):在半径在半径EpsEps内含有超过内含有超过MinPtsMinPts数目的点,则该点为核心点数目的点,则该点为核心点 这些点都是在簇内的边界点边界点(border point):border point):在半径在半径EpsEps内点的数量小于内点的数量小于MinPtsMinPts,但是在核心点的邻居,但是在核心点的邻居噪音点噪音点(noise point):noise point):任何不是核心点或边界点的任何不是核心点或边界点的点点.DBSCANDBSC
4、AN:核心点、边界点和噪音点核心点、边界点和噪音点Original PointsPoint types:core,border and noiseEps=10,MinPts=4DBSCAN:核心点、边界点和噪音点核心点、边界点和噪音点DBSCAN算法概念Eps邻域:给定对象半径给定对象半径Eps内的邻域称为该对象的内的邻域称为该对象的Eps邻域,我邻域,我们用们用 表示点表示点p的的Eps-半径内的点的集合,即半径内的点的集合,即:核心对象:如果对象的如果对象的Eps邻域至少包含最小数目邻域至少包含最小数目MinPts的对的对象,则称该对象为核心对象。象,则称该对象为核心对象。边界点:边界点不
5、是核心点,但落在某个核心点的邻域内。边界点不是核心点,但落在某个核心点的邻域内。噪音点:既不是核心点,也不是边界点的任何点既不是核心点,也不是边界点的任何点)(pNEpsEpsq),distance(pDq|q)(中,在数据集pNEpsDBSCAN算法概念直接密度可达:给定一个对象集合给定一个对象集合D,如果,如果p在在q的的Eps邻域内,邻域内,而而q是一个核心对象,则称对象是一个核心对象,则称对象p 从对象从对象q出发时是直接密度可出发时是直接密度可达的达的(directly density-reachable)。密度可达:如果存在一个对象链如果存在一个对象链 ,对于对于 ,是从是从 关于
6、关于Eps和和MinPts直接直接密度可达的,则对象密度可达的,则对象p是从对象是从对象q关于关于Eps和和MinPts密度可达的密度可达的(density-reachable)。密度相连:如果存在对象如果存在对象OD,使对象,使对象p和和q都是从都是从O关于关于Eps和和MinPts密度可达的,那么对象密度可达的,那么对象p到到q是关于是关于Eps和和MinPts密度密度相连的相连的(density-connected)。ppqppppnn,121)1(niDpi1ipipDBSCAN算法概念示例算法概念示例 如图所示,如图所示,Eps用一个相应的半径表示,设用一个相应的半径表示,设MinP
7、ts=3,请分析,请分析Q,M,P,S,O,R这这5个样本点之间的关系。个样本点之间的关系。“直接密度可达直接密度可达”和和“密度可达密度可达”概念示意描述概念示意描述解答:根据以上概念知道:由于有标记的各点M、P、O的Eps近邻均包含3个以上的点,因此它们都是核对象;M是从P“直接密度可达”;而Q则是从M“直接密度可达”;基于上述结果,Q是从P“密度可达”;但P从Q无法“密度可达”(非对称)。类似地,S和R从O是“密度可达”的;O、R和S均是“密度相连”的。DBSCAN算法原理算法原理 DBSCAN通过检查数据集中每点的通过检查数据集中每点的Eps邻域来搜索簇,如邻域来搜索簇,如果点果点p的
8、的Eps邻域包含的点多于邻域包含的点多于MinPts个,则创建一个以个,则创建一个以p为核心对象的簇。为核心对象的簇。然后,然后,DBSCAN迭代地聚集从这些核心对象直接密度可迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点添加到任何簇时,该过程结束当没有新的点添加到任何簇时,该过程结束.DBSCAN算法的输入算法的输入 DBSCAN共包括3个输入数据:数据集D,给定点在邻域内成为核心对象的最小邻域点数:MinPts,邻域半径:Eps参数设置参数设置(1)Eps的值可以使用绘制k-距离曲线(k-dist
展开阅读全文
