杂知识点

分类和聚类

分类(Classification ):就是将某个东西分为哪一类，通过提供的数据集中的特征向量和标签进行归纳，通常是监督学习。

聚类(Clustering ):就是把相似的东西分到一组，聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在Machine Learning中被称作unsupervised learning (无监督学习).

（摘自http://blog.csdn.net/sjpz0124/article/details/45980577）

典型的聚类算法：K均值(K-mensclustering)聚类。

分类与回归

极大似然估计

贝叶斯估计

信息增益

ID3

C4.5

CART

平方误差

Gini指数

置信区间

置信区间是指由样本统计量所构造的总体参数的估计区间。

样本均值加、减抽样误差，得出置信区间的两个端点。

一些模型中用到的基本概念