机器学习——模型评估与选择

一、几个概念:

1、错误率:如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应地1-a/m称为“精度”。一般把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。当然,我们的目的是得到泛化误差小的学习器。

2、过拟合与欠拟合:过拟合最常见的情况是由于学习器太过于强大而学习到了训练样本中包含的不太一般的特性;而欠拟合则通常是由于学习能力低下造成的。 继续阅读“机器学习——模型评估与选择”

机器学习——综述

一、什么是“机器学习”?

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

简单的说,机器学习是一门研究如何通过计算的手段,利用经验来改善系统自身性能的学科。对计算机系统来说,“经验”即“数据”,机器学习所研究的内容更确切的来说,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应地判断。 继续阅读“机器学习——综述”