杂知识点

一些模型中用到的基本概念

Posted by MrTriste on May 1, 2017

分类和聚类

分类(Classification ):就是将某个东西分为哪一类,通过提供的数据集中的特征向量和标签进行归纳,通常是监督学习。

聚类(Clustering ):就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).

(摘自http://blog.csdn.net/sjpz0124/article/details/45980577)

典型的聚类算法:K均值(K-mensclustering)聚类。

分类与回归

极大似然估计

贝叶斯估计

信息增益

ID3

C4.5

CART

平方误差

Gini指数

置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。

样本均值加、减抽样误差,得出置信区间的两个端点。