分类和聚类
分类(Classification ):就是将某个东西分为哪一类,通过提供的数据集中的特征向量和标签进行归纳,通常是监督学习。
聚类(Clustering ):就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).
(摘自http://blog.csdn.net/sjpz0124/article/details/45980577)
典型的聚类算法:K均值(K-mensclustering)聚类。
分类与回归
极大似然估计
贝叶斯估计
信息增益
ID3
C4.5
CART
平方误差
Gini指数
置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。
样本均值加、减抽样误差,得出置信区间的两个端点。