机器学习——模型评估与选择

一、几个概念:

1、错误率:如果在m个样本中有a个样本分类错误,则错误率E=a/m;相应地1-a/m称为“精度”。一般把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。当然,我们的目的是得到泛化误差小的学习器。

2、过拟合与欠拟合:过拟合最常见的情况是由于学习器太过于强大而学习到了训练样本中包含的不太一般的特性;而欠拟合则通常是由于学习能力低下造成的。 继续阅读“机器学习——模型评估与选择”

机器学习——综述

一、什么是“机器学习”?

假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

简单的说,机器学习是一门研究如何通过计算的手段,利用经验来改善系统自身性能的学科。对计算机系统来说,“经验”即“数据”,机器学习所研究的内容更确切的来说,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应地判断。 继续阅读“机器学习——综述”

吾日四省吾身

曾子曰:“吾日三省吾身,为人谋而不忠乎?与朋友交而不信乎?传不习乎?”

古代读书人以此为准则,每日严格要求自己,不断追求进步,以期成就自己的圣贤之路。

当越来越看清自己的时候,对于未来也多了一些更清晰的理解和畅想。越来越明白,往日的那些所谓梦想,大都是不切实际——至少不一定合乎自己本性的碎碎念。想过自己真正想要的生活,向往那种自由与洒脱。但是目前的自己却无法支撑起那种奢侈的想法——因为生活本已不容易。

但我想,我终究可以过上那种日子的,我计划从现在开始了。不是打算,是计划。

吾日四省吾身,读书了吗?运动了吗?学习新语言了吗?写日志了吗?

很适合当座右铭的有没有。没玩睡前对着这几个问号好好思考、反省,会发现其实这简单的坚持之后还是有诸多的乐趣可言。

——不妨坚持走起。

前端构建工具Gulp的使用介绍

Gulp是一个构建系统,它能自动执行常见任务,比如编译预处理CSS,压缩和混淆JavaScript,刷新浏览器,按需求生成不同的项目目标等。

通过代码优于配置的策略,Gulp 让简单的任务简单,复杂的任务可管理。利用 Node.js 流的威力,你可以快速构建项目并减少频繁的 IO 操作。Gulp有丰富的插件可以使用,并且插件的使用都非常简单,掌握Gulp毫不费力。 继续阅读“前端构建工具Gulp的使用介绍”

当再次准备考日语

因为看了几集海贼王,就萌发了学习日语的热情;因为被一位日语学习机构的老师鼓动的热血勃发而透支了相当于我上大学四年学费的信用卡报名学习日语。曾经因为没有钱还透支的信用卡,而省吃俭用;曾经因为同学朋友的不解和不屑而不断地劝诫自己——我不知道明天是怎么样的,但是我要为了明天更好而努力。 继续阅读“当再次准备考日语”

劝人也是有立场的

看过了东野圭吾的小说《解忧杂货店》之后,有三点感悟,第一是幻想能在自己走投无路、万念俱灰的时候能有这么一家小店给自己一些希望,第二是没事做的时候就去做好事吧,扶老太太过马路什么的风险太大,暂且不说,与人和善一点也算将就,第三就是关于如何劝人。 继续阅读“劝人也是有立场的”

常用正则表达式规则

项目中,经常要用到一些匹配、校验、搜索等的功能,这时候使用正则表达式可以大大减少工作量,代码也看起来有没很多。所以,对正则表达式的灵活使用程度,可以在一定程度上说明一个工程师的代码水平。而且普遍认为,最精准、简介的正则表达式一般人是看不懂的。

本篇没有那么高深,主要介绍在项目中经常用到的一些规则。

继续阅读“常用正则表达式规则”

编程语言中那些有趣的命名

学习NodeJS的时候,一定会用到其包管理器npm。npm的字面意思是node package manager,实际的含义也是这样,但是npm真正的英文名却是“npm is not an acronym”,意思是“npm不是一个缩写”,所以如果要问npm是什么单词的缩写,那么回答就是“‘npm是不是一个缩写’的缩写”。

这种计算机科学中的“饶舌”现象叫作递归缩写。 继续阅读“编程语言中那些有趣的命名”