书签 分享 收藏 举报 版权申诉 / 46

类型Python语言PPT12机器学习概述.pptx

  • 文档编号:1101368
  • 上传时间:2023-11-21
  • 格式:PPTX
  • 页数:46
  • 大小:1.29MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    Python 语言 PPT12 机器 学习 概述
    资源描述:

    1、本书配套的超星课程网站生活中的人工智能语音识别语音识别人脸识别人脸识别指纹识别指纹识别自动驾驶自动驾驶1机器学习的概念2机器学习的步骤3机器学习的预处理环节4机器学习的类型主 要内 容5机器学习的历史和应用人工智能与机器学习、深度学习的关系机器学习:是目前实现人工智能的主流方法和技术。机器学习数据驱动的人工智能。机器学习的基本概念 什么是机器学习 训练集和测试集 过拟合和泛化能力机器学习的思想机器学习:从经验(实践)中学习吃一堑,长一智从大量事例中学习吃十堑,长一智。机器学习的定义:如果一个程序可以在任务T上,随着经验E的增加,效果P也随之增加,则称这个程序可以从经验中学习。1.1 机器学习的

    2、概念和方法从事例中学习“事例”即“样本”统计学统计学:由样本的统计量估计总体的参:由样本的统计量估计总体的参数数 机器学习机器学习:利用训练集进行建模和参数估计,利用测试集:利用训练集进行建模和参数估计,利用测试集进行模型测进行模型测试试1.1 机器学习的概念和方法总总体体样本样本测试集测试集训练集训练集问题:让机器自动识别一个物品是问题:让机器自动识别一个物品是筷子筷子or牙签牙签。(注注:机器开始并没有筷子和牙签的任何知识机器开始并没有筷子和牙签的任何知识)第一步:收集一些筷子和牙签的第一步:收集一些筷子和牙签的样本样本。第二步:特征选择,选择第二步:特征选择,选择有区分度有区分度的特征的

    3、特征1.1.1 机器学习的一般过程举例长度长度质量质量材质类别类别1258竹筷子2237竹筷子3204木筷子460.1竹牙签550.08竹牙签第三步:训练模型。第三步:训练模型。训练训练(training):从数据中学得模型的过程称为学习学习(learning)或训训练练(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据训练数据(training data),其中每个样本称为一个训练样本训练样本(training sample),训练样本组成的集合称为训练集训练集(training set)。机器学习的过程举例质量长度ax+by+c=0C1 筷子C2牙签

    4、第第四四步:预测新实例步:预测新实例学得模型后,使用其进行预测的过程称为测试测试(testing),被预测的样本称为测测试集试集(testing sample)泛化能力泛化能力(generalization):学得模型适用于新样本的能力。机器学习的过程举例质量长度模型:2x+3y-5=0统计学中:样本是用来估计总体的参数统计学中:样本是用来估计总体的参数机器学习中:样本是用来训练模型和估计模型参机器学习中:样本是用来训练模型和估计模型参数的。数的。对于对于参数估计参数估计来说来说:参数参数总体的均值、方差总体的均值、方差模型的参数,如模型的参数,如ANN中节点的权重中节点的权重样本和参数估计统

    5、计学机器学习机器学习的步骤收集相关样本提取特征将特征转换为数据(数据标准化)训练模型使用模型预测新实例机器学习的步骤总结二类分类问题:要机器来判断一张图像是大熊猫还是小熊猫多类分类问题:区分一张图片是大熊猫、小熊猫还是棕熊分类器的相关概念(a)大熊猫(b)小熊猫(c)棕熊分类器是一个计算系统,它通过计算出一系列判别函数的值做出分类决策,实现对输入数据进行分类的目的。判别函数是一个从输入特征映射到决策的函数,其结果可以直接用于做出分类决策。分类问题中,分类器会把输入空间划分成多个决策区域,这些决策区域之间的边界称作决策面或决策边界。1机器学习的概念2机器学习的步骤3机器学习的预处理环节4机器学习

    6、的类型主 要内 容5机器学习的历史和应用机器学习的步骤总结1)获取大量和任务相关的数据集来构建模型。2)通过模型在数据集上的误差不断迭代使误差最小来训练模型,得到对数据集拟合合理的模型;3)将训练好调整好的模型应用到真实的场景中。机器学习的步骤总结训练集、验证集,测试集样本分为训练数据和测试数据。测试数据即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。样本及样本的划分机器学习程序和传统程序的区别研究问题撰写规则分析

    7、错误评估发布程序满意不满意输入样本验证集图2-3 不使用机学习的传统程序研究问题训练机器学习模型分析错误评估发布程序测试性能满意不满意训练集验证集测试集图2-4 基机器学习的方法机器学习程序和传统程序的区别更新数据评估使用程序满意训练机器学习算法数据能够自动进行图2-5 机器学习方法能自动适应改变2.1.4 评估机器学习模型的效果长度质量新样本C2牙签C1筷子图1-6 为适应特样本而修改分类线为曲线训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训

    8、练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。长度质量C1筷子C2牙签图1-7 两种分类线的预测准率对比欠拟合、过拟合示例模型在训练样本上产生的误差叫训练误差(training error。在测试样本上产生的误差叫测试误差(test error)。欠拟合、过拟合与泛化能力22 线性回归模型线性回归模型三次多项式模型三次多项式模型五次多项式模型五次多项式模型九次多项式模型九次多项式模型训练误差训练误差20195342094测试误差测试误差578247123238492和和2597781144138496泛化能力与

    9、模型复杂度衡量模型好坏的是测试误差,它标志了模型对未知新实例的预测能力,因此一般追求的是测试误差最小的那个模型。模型对新实例的预测能力称为泛化能力,模型在新实例上的误差称为泛化误差。能够求解问题的模型往往不只一个。一般来说,只有合适复杂程度的模型才能最好地反映出训练集中蕴含的规律,取得最好的泛化能力。欠拟合、过拟合与泛化能力23训练集、验证集、测试集有监督机器学习是从已有的样本中学习规律,并用来预测未知样本。它是基于这样一个假设:已有样本和未知样本中蕴含了的相同规律。同样的,将已有的样本划分为训练集和验证集,也是基于这样的假设,即训练集蕴含的规律与验证集中蕴含的规律也是一致的,因此,可以用训练

    10、集来训练模型,用验证集来验证模型,达到希望的效果后,再用来预测测试集。泛化能力评估方法24训练集、验证集的要求首先,训练集的数据要尽可能充分且分布平衡,并符合一定的清洁度要求(即噪声不能过多)。不充分或者分布不平衡的样本集,可能不会训练出一个完整的模型。其次,验证集的样本也需要符合一定的平衡分布和清洁度要求,否则将无法验证出一个真实的模型。此外,训练模型和验证模型的样本不能相同。泛化能力评估方法25保持法、K-折交叉验证将训练数据划分为训练集和验证集的方法称为保持法(holdout method),一般保留已知样本的20%到30%作为验证集。K-折交叉验证是将总样本集随机地划分为K个互不相交的

    11、子集。对于每个子集,将所有其它样本集作为训练集训练出模型,将该子集作为验证集,并记录验证集每一个样本的预测结果。每个子集都这样处理完后,所有样本都有一个预测值。然后与真实值进行比对,从而评估模型的效果。这个方法将每一个样本都用来进行了验证,其评估的准确性一般要高于保持法。泛化能力评估方法261机器学习的概念2机器学习的步骤3机器学习的预处理环节4机器学习的类型主 要内 容5机器学习的历史和应用机器学习的工作流程数据获取数据预处理特征提取训练模型测试模型使用模型训练集测试集反馈修正数据标准化数据降维数据准备阶段新样本数据准备阶段是机器学习任务中繁琐枯燥但又是很重要数据准备阶段是机器学习任务中繁琐

    12、枯燥但又是很重要的一个阶段的一个阶段为什么要进行数据预处理:获取到的原始样本数据往往会存在有缺失值、重复值等问题,在使用之前必须进行数据预处理。数据预处理没有标准的流程,但一般包括以下几个步骤:去除唯一属性、处理缺失值、属性编码、数据标准化、特征选择、主成分分析。1 数据预处理ID姓名年龄年收入性别学历消费额01张三365万男本科4万102李四424万5女本科4万03王涛233万1男高中04赵波617万男本科2万05钱图382万女大专1万1.去除唯一属性去除唯一属性2.处理缺失值处理缺失值3.数据定量化数据定量化年龄 年收入性别学历消费额3650000180410004245000280400

    13、00233100014015000617000018020000382000026010000数据预处理之后的样本:对于样本数据来说,首先需要消除特征属性之间不同量级的影响:数量级的差异将导致数量级较大的属性占主导地位。数量级的差异将导致迭代收敛速度减慢。依赖于样本距离的算法对于数量级非常敏感。1.数据标准化常用的数据标准化方法:min-max标准化(归一化):新数据=(原数据-最小值)/(最大值-最小值)z-score标准化(规范化):新数据=(原数据-均值)/标准差1.数据标准化标准化:样本数据的分布要求服从正态分布归一化的缺点:对离群值(outlier)很敏感,因为离群点会影响max或m

    14、in值;其次,当有新数据加入时,可能导致max和min值发生较大变化。而在标准化方法中,新数据加入对标准差和均值的影响并不大。归一化会改变数据的原始距离、分布,使得归一化后的数据分布呈现类圆形。优点是数据归一化后,最优解的寻找过程会变得更平缓,更容易正确地收敛到最优解。标准化和归一化的选择1.2.3 数据标准化数据标准化就是用来消除不同量级的影响,常用的数据标准化方法有min-max归一化和z-score标准化两种。年龄年收入性别学历消费额0.340.60110.50.5110.9700.22000.8111010.320.39010.50年龄年收入性别学历消费额-0.330.40-0.820

    15、.750.970.160.111.220.750.89-1.38-0.72-0.82-1.750.481.711.57-0.820.750.75-0.16-1.361.22-1.751.58“维度”就是指样本集中特征属性的个数,“降维”指的是降低特征矩阵中特征的数量。1.2.4 数据的降维x1x2x1x1*x2*x2x1*维度灾难会导致分类器出现过拟合。这是因为在样本容量固定时,随着特征数量的增加,单位空间内的样本数量会变少。区域1区域2区域3区域405151020 0515102005101520主成分分析(Principal Component Analysis,PCA)是最常用的一种降维

    16、方法。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。Sklearn的decomposition模块中提供了PCA类,用来实现主成分分析。数据的降维方法数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,数据比模型更重要。2.5.6 调用机器学习模型聚类模型、分类模型、回归模型和标注模型聚类(Clustering)模型用于将训练数据按照某种关系划分为多个簇,将关系相近的训练数据分在同一个簇中。分类(Classification)是机器学习应用中最为广泛的任务,它用于将某个事物判定为属于预先设定的多个类别中的某一个。回归(Regression)模型预测的不是属于哪一类,而是什么值,可以看作是将分类模型的类别数无限增加,即标签值不再只是几个离散的值了,而是连续的值。标注(Tagging)模型用于处理有前后关联关系的序列问题。它的输入是一个观测序列,它的输出是一个标签序列。2.3 机器学习的类型监督学习、无监督学习和半监督学习监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来

    展开阅读全文
    提示  兔兜文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:Python语言PPT12机器学习概述.pptx
    链接地址:https://www.tudouwenku.com/doc/1101368.html

    若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理!

    copyright@2008-2024 兔兜文库 版权所有

    鲁公网安备37072502000182号  ICP备案号:鲁ICP备2021021588号-1  百度保障

    兔兜文库
    收起
    展开