Python语言PPT14.1聚类的原理及实现.pptx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 语言 PPT14 原理 实现
- 资源描述:
-
1、数据挖掘数据挖掘聚类聚类分类分类关联规则挖掘关联规则挖掘聚类概述编号账户余额年龄收入性别子女个数100很低151967男0200高258453男1300中326125女2400低202167男1500低552439女4聚类(clusteringclustering):实现将对象自动分组的一种方法无监督学习聚类类别所表达的含义通常是未知的,不确定的物以类聚客户基本信息数据表年龄年收入学历消费额365万本科4万1424万5本科4万233万1高中3万5617万本科2万382万大专1万怎样把这些客户划分成不同的类别?根据他们之间的相似度根据他们之间的相似度进行聚类,物以类聚,进行聚类,物以类聚,人以群
2、分人以群分他们之间比较他们之间比较相似,是否可相似,是否可聚成一类聚成一类怎样评价相怎样评价相似度呢?似度呢?聚类分析概述概念:概念:聚类分析是数据挖掘中研究聚类分析是数据挖掘中研究“物以类聚物以类聚”的一的一种方法种方法,属多元统计分析方法属多元统计分析方法.例如:细分市场、消费行为划分例如:细分市场、消费行为划分聚类分析是建立一种分类,是将一批样本聚类分析是建立一种分类,是将一批样本(或变量或变量)按照在性质上的按照在性质上的“亲疏亲疏”程度程度,在在没有先验知识没有先验知识的的情况下自动进行分类的方法情况下自动进行分类的方法.其中其中:类内个体具有较高的相似性类内个体具有较高的相似性,类
3、间的差异性较大类间的差异性较大.两类两类:(A B)(C D E)三类三类:(A B)(C)(D E)l依据平均得分的依据平均得分的差距差距,差距较小的差距较小的为一类为一类.l聚类过程中聚类过程中,没有没有事先指定分类的标事先指定分类的标准准.完全根据样本完全根据样本数据客观产生分类数据客观产生分类结果结果.聚类分析概述簇和聚类簇簇(cluster)(cluster):数据对象的集合数据对象的集合 同一簇中的对象彼此同一簇中的对象彼此相似相似 不同簇中的对象彼此不同簇中的对象彼此相异相异n聚类:聚类:n将数据对象的集合分组成为由相似对象组成的将数据对象的集合分组成为由相似对象组成的多个类多个
4、类 n聚类分析中要划分的类是未知的,所以聚类分聚类分析中要划分的类是未知的,所以聚类分析属于析属于无监督学习无监督学习或或观察学习观察学习聚类算法的应用举例聚类算法的应用举例车牌识别车牌识别图像分割算法图像分割算法K=2K=2,分割为类似白色和类似蓝色两个类,分割为类似白色和类似蓝色两个类将白色的形状与字符库中的字符作相似性将白色的形状与字符库中的字符作相似性比对,判断属于哪个字符。比对,判断属于哪个字符。在图像分割上的简单应用在图像分割上的简单应用例例1:1.图片:一只遥望大海的小狗;图片:一只遥望大海的小狗;2.此图为此图为100 x 100像素的像素的JPG图片,每个像素可以图片,每个像
5、素可以表示为三维向量(分别对应表示为三维向量(分别对应JPEG图像中的红色、图像中的红色、绿色和蓝色通道)绿色和蓝色通道);3.将图片分割为合适的背景区域(三个)和前景区将图片分割为合适的背景区域(三个)和前景区域(小狗);域(小狗);4.使用使用K-means算法对图像进行分割。算法对图像进行分割。在图像分割上的简单应用在图像分割上的简单应用(续)(续)分割后的效果注:最大迭代次数为20次,需运行多次才有可能得到较好的效果。在人脸识别中的应用在人脸识别中的应用例例2:注:聚类中心个数为5,最大迭代次数为10。聚类分析的主要问题如何度量距离如何度量距离层次聚类法层次聚类法K-meansK-me
6、ans聚类聚类K-K-中心点聚类中心点聚类基于划分的聚类基于划分的聚类如何度量距离如何度量距离数据的种类定距型数据(数值型)定性型数据(布尔型)定序型数据(有顺序的离散值型、比如优、良、中、及格、不及格)亲疏远程度的衡量指标亲疏远程度的衡量指标距离距离:数据间差异程度的度量数据间差异程度的度量.距离越近距离越近,越越“亲密亲密”,”,聚成一类聚成一类;距离越远距离越远,越越“疏远疏远”,”,分别属分别属于不同的类于不同的类定距型个体间的距离:定距型个体间的距离:把每个个案数据看成是把每个个案数据看成是n n维空间上的点维空间上的点,在点和点在点和点之间定义某种距离之间定义某种距离.欧氏距离欧氏
7、距离(EUCLID)EUCLID)平方欧氏距离平方欧氏距离(SEUCLIDSEUCLID)kiiiyxyxEUCLID12)(),(距离的定义个体间的距离个体间的距离把每个个案数据看成是把每个个案数据看成是n维空间上的点维空间上的点,在点和在点和点之间定义某种距离点之间定义某种距离 21122222211)()()()(pkjkikjpipjijiijxxxxxxxxdx1x2x12x22x11x21x21-x11x22-x12212222112121)()(xxxxdPrinciples and Applications of Business IntelligenceChap 6:聚类分析
8、 17距离公式 If q=1,d is 曼哈顿距离Manhattan distance,L1 If q=2,d is 欧式距离Euclidean distance:L2性质:d(oi,oj)0d(oi,oi)=0d(oi,oj)=d(oj,oi)d(oi,oj)doi,ok)+d(ok,oj)|.|(|),(2222211jmximxjxixjxixjoiod|m|.|),(2211jmxixjxixjxixjoiodPrinciples and Applications of Business IntelligenceChap 6:聚类分析 18品距离矩阵Principles and App
展开阅读全文