机器学习——模型评估与选择

一、几个概念:

1、错误率:如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应地1-a/m称为“精度”。一般把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。当然,我们的目的是得到泛化误差小的学习器。

2、过拟合与欠拟合:过拟合最常见的情况是由于学习器太过于强大而学习到了训练样本中包含的不太一般的特性;而欠拟合则通常是由于学习能力低下造成的。

二、评估方法:

为了通过实验测试来对学习器的泛化误差进行评估并进而做出选择,需要使用一个“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似。一般地,对一个数据集,训练集和测试集的划分通常是互斥的。

下面是几种产生训练集和测试集的方法:

1、留出法:直接将数据集分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S∪T,S∩T=∅。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。至于S与T的大小,通常将大约2/3~4/5的样本用于训练,其余样本用于测试。

2、交叉验证法:先将数据集D划分为k个大小相似的互斥子集,即D=D1∪D2∪~∪Dk。每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就得到k组训练/测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。

三、性能度量:

最常用的性能度量是:错误率和精度。

其次还有:查准率、查全率与F1,ROC与AUC,代价敏感错误率与代价曲线,具体就不介绍了。

 

 

《机器学习——模型评估与选择》有3个想法

  1. Заказывал посредством сайт курсовую сообразно истории права. Пришлось это исполнять по причине того, который, во-первых, некогда, а во-вторых, который я такой особенный малочисленный, который на весь имеет свое личное мнение и способен его отстоять. Вот это моим преподавателям-старперам вконец не нравиться, так как они не привыкли направляться в разрез с линией партии (книги и общественное догадка). Вот я и решил, чтобы никому не портить нервы и свое срок обещать курсовую.
    Быть заказе попросил, воеже совершенно сделали с малым налетом нестандартности, но только с малым.
    Выполнено было в оговоренное век — замечаний нет. Преподаватели были в шоке, не ожидая от меня такого (не самого факта выполнения, а то который, я написал сообразно их стандартам)и я получил оценку «отлично».
    Спасибо команде сайта за курсовик Курсовая работа: «Тема любви в лирике А.С. Пушкина. Адресаты любовной лирики. Романтический образ талисмана»

  2. Can I just say what a relief to find someone who actually knows what theyre talking about on the internet. You definitely know how to bring an issue to light and make it important. More people need to read this and understand this side of the story. I cant believe youre not more popular because you definitely have the gift.

发表评论

电子邮件地址不会被公开。 必填项已用*标注