机器学习-吴恩达课程笔记

发布时间 2023-04-03 23:15:35作者: 薛定谔的小冰
  • 回归算法     在于拟合一条线,来预测信息,这时y的值,或者说输出值也是是我们要考量的对象,因为我们要根据输出值的变化规律预测我们期望的输出值
  • 分类算法     考虑点的分布问题,这时并不着重考量输出值,即我们不关心输出值的大小甚至他可以是符号,只起区别作用,我们更多考虑是在输入值所对应的输出值的分布状况,比如粗粒度来看,如果一个地区输出量a多,那个这个地区划分给a,类似这种,最终,我们会得到一个边界线,他划分了整个向量空间,当给出一个输入值时,我们可以判断他位于什么区域进而得到对应的输出即分类。
  • 非监督机器学习     可以帮助我们找到数据集中存在某种结构,模式或者说规律,他可以帮助我们发掘数据集中有趣的信息或者现象。由此也可以看出我们提供的数据集越干净越具有规律性就越有助于机器的学习。
  • 聚类算法     与分类算法类似,他们都不过度关注输出值本身的大小或其他性质,他们同样通过输入值考察输出值的分布,但是区别在于聚类算法是非监督机器学习算法,他不知道哪些输入值他们所对应的点是同一类,或者说他们根本没有输出值,而是靠机器自己得到输出值即自己分类,那么问题就产生了,机器会把点分布集中的地区划为一类,但是通过非类算法可以知道,分布集中的不一定就是同一类,更准确地说不是我们想让机器分的类,例如肿瘤年龄和大小作为输入值,是否为恶性作为输出值,这是一个非类算法的例子,而当我们对数据集实行聚类算法时,他会把年龄相近,肿瘤大小相近的点归为一类,他或许得到的是某一年龄段肿瘤集中在多大这种问题,也就是他考虑的问题和我们考虑的不同,因此数据集内容的选取,数据集各个维度的选取对于聚类算法的影响很大;聚类算法会根据输入值将相似的归为一类。在dna那个例子中,横轴实际上是输出值,纵轴和格子的颜色是输入值,代表某一性状基因的显式程度,再经过聚类算法以后,机器会把各个性状基因综合下来显式程度差不多的人归到一类,这样达到了目的。聚类算法中我们如何识别什么作为输出类,这个可以根据你想要得到的分类结果来判断,比如dna的例子我们最终分类是把人进行分类,那么人本身就是输出值。
  • 分类和回归的区别     在于分类的只产生少量输出