监督学习与无监督学习

1、监督学习

1.1 概念:

可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

1.2 例子

例子1:给定数据集有关房子的面积和房子的售价,试图预测新房子的房价,如下是一个有关房价和房子面积的数据集,横轴是房子的面积大小(平方英尺),纵轴是房价(千万$),现在你有一个朋友他有个面积为750平方英尺的房子,想知道能够能以多少价格出售。

824a472bd0154238091554fa1afefe3a.png

在这种情况下学习算法可以根据数据来画一条直线或者说用一条直线来拟合数据,如下图,看上去你朋友的房子可以会卖到150K$,但是这可不是唯一的学习算法,也许有更好的。例如,用一个二介多项式来拟合数据,这样效果可能会更好,在这种情况下,该房子可能会买到200K$。

1

这是一个监督学习的例子,同时这里房价是连续型数值(输出),房价与房子的面积(输入)有关系,因此也是一个回归问题。

例子2:给定一个患肿瘤的病人,肿瘤有大小(输入),判断这个病人的肿瘤是良性的还是恶性的(离散输出,良性或恶性)。如下图是一个乳腺瘤的例子,横轴是瘤的大小,纵轴是1或0代表该肿瘤是恶性的还是良性的,蓝色样本是良性的,红色样本是恶性的。

bb5d432e99da72a3da4febc9a143b385.png

假设现在有一个人患了肿瘤,其肿瘤的大小如上图的粉色箭头指向的大小,这个时候学习算法的任务是根据肿瘤的大小来估计该肿瘤的性质,这是一个分类问题。

2、无监督学习

2.1 概念

无监督式学习(Unsupervised Learning )其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。

无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

2.2 例子

无监督学习给定的数据中没有明确的输出,所有的数据都是一样的,无监督学习的任务就是通过数据本身来找出可能的结构。

388424349bac9fb32bf77dd2d69c7fab.png

比如上图中的数据,无监督学习算法可能会将其分为两类,这就是所谓的聚类算法。除此之外,还有很多的无监督学习的例子,如google搜索中,将所有的新闻收集到一起,然后根据其新闻的内容将其”分类”,这里的分类非监督学习的分类,可以理解为聚类。

-------------The End-------------
谢谢大锅请我喝杯阔乐~