Python语言PPT12机器学习概述.pptx
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python 语言 PPT12 机器 学习 概述
- 资源描述:
-
1、本书配套的超星课程网站生活中的人工智能语音识别语音识别人脸识别人脸识别指纹识别指纹识别自动驾驶自动驾驶1机器学习的概念2机器学习的步骤3机器学习的预处理环节4机器学习的类型主 要内 容5机器学习的历史和应用人工智能与机器学习、深度学习的关系机器学习:是目前实现人工智能的主流方法和技术。机器学习数据驱动的人工智能。机器学习的基本概念 什么是机器学习 训练集和测试集 过拟合和泛化能力机器学习的思想机器学习:从经验(实践)中学习吃一堑,长一智从大量事例中学习吃十堑,长一智。机器学习的定义:如果一个程序可以在任务T上,随着经验E的增加,效果P也随之增加,则称这个程序可以从经验中学习。1.1 机器学习的
2、概念和方法从事例中学习“事例”即“样本”统计学统计学:由样本的统计量估计总体的参:由样本的统计量估计总体的参数数 机器学习机器学习:利用训练集进行建模和参数估计,利用测试集:利用训练集进行建模和参数估计,利用测试集进行模型测进行模型测试试1.1 机器学习的概念和方法总总体体样本样本测试集测试集训练集训练集问题:让机器自动识别一个物品是问题:让机器自动识别一个物品是筷子筷子or牙签牙签。(注注:机器开始并没有筷子和牙签的任何知识机器开始并没有筷子和牙签的任何知识)第一步:收集一些筷子和牙签的第一步:收集一些筷子和牙签的样本样本。第二步:特征选择,选择第二步:特征选择,选择有区分度有区分度的特征的
3、特征1.1.1 机器学习的一般过程举例长度长度质量质量材质类别类别1258竹筷子2237竹筷子3204木筷子460.1竹牙签550.08竹牙签第三步:训练模型。第三步:训练模型。训练训练(training):从数据中学得模型的过程称为学习学习(learning)或训训练练(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据训练数据(training data),其中每个样本称为一个训练样本训练样本(training sample),训练样本组成的集合称为训练集训练集(training set)。机器学习的过程举例质量长度ax+by+c=0C1 筷子C2牙签
4、第第四四步:预测新实例步:预测新实例学得模型后,使用其进行预测的过程称为测试测试(testing),被预测的样本称为测测试集试集(testing sample)泛化能力泛化能力(generalization):学得模型适用于新样本的能力。机器学习的过程举例质量长度模型:2x+3y-5=0统计学中:样本是用来估计总体的参数统计学中:样本是用来估计总体的参数机器学习中:样本是用来训练模型和估计模型参机器学习中:样本是用来训练模型和估计模型参数的。数的。对于对于参数估计参数估计来说来说:参数参数总体的均值、方差总体的均值、方差模型的参数,如模型的参数,如ANN中节点的权重中节点的权重样本和参数估计统
5、计学机器学习机器学习的步骤收集相关样本提取特征将特征转换为数据(数据标准化)训练模型使用模型预测新实例机器学习的步骤总结二类分类问题:要机器来判断一张图像是大熊猫还是小熊猫多类分类问题:区分一张图片是大熊猫、小熊猫还是棕熊分类器的相关概念(a)大熊猫(b)小熊猫(c)棕熊分类器是一个计算系统,它通过计算出一系列判别函数的值做出分类决策,实现对输入数据进行分类的目的。判别函数是一个从输入特征映射到决策的函数,其结果可以直接用于做出分类决策。分类问题中,分类器会把输入空间划分成多个决策区域,这些决策区域之间的边界称作决策面或决策边界。1机器学习的概念2机器学习的步骤3机器学习的预处理环节4机器学习
6、的类型主 要内 容5机器学习的历史和应用机器学习的步骤总结1)获取大量和任务相关的数据集来构建模型。2)通过模型在数据集上的误差不断迭代使误差最小来训练模型,得到对数据集拟合合理的模型;3)将训练好调整好的模型应用到真实的场景中。机器学习的步骤总结训练集、验证集,测试集样本分为训练数据和测试数据。测试数据即为测试集,是需要应用模型进行预测的那部分数据,是机器学习所有工作的最终服务对象。为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集,训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。样本及样本的划分机器学习程序和传统程序的区别研究问题撰写规则分析
7、错误评估发布程序满意不满意输入样本验证集图2-3 不使用机学习的传统程序研究问题训练机器学习模型分析错误评估发布程序测试性能满意不满意训练集验证集测试集图2-4 基机器学习的方法机器学习程序和传统程序的区别更新数据评估使用程序满意训练机器学习算法数据能够自动进行图2-5 机器学习方法能自动适应改变2.1.4 评估机器学习模型的效果长度质量新样本C2牙签C1筷子图1-6 为适应特样本而修改分类线为曲线训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训
8、练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。长度质量C1筷子C2牙签图1-7 两种分类线的预测准率对比欠拟合、过拟合示例模型在训练样本上产生的误差叫训练误差(training error。在测试样本上产生的误差叫测试误差(test error)。欠拟合、过拟合与泛化能力22 线性回归模型线性回归模型三次多项式模型三次多项式模型五次多项式模型五次多项式模型九次多项式模型九次多项式模型训练误差训练误差20195342094测试误差测试误差578247123238492和和2597781144138496泛化能力与
展开阅读全文