MrTriste's Blog

不正经,却严肃

杂知识点

一些模型中用到的基本概念

分类和聚类 分类(Classification ):就是将某个东西分为哪一类,通过提供的数据集中的特征向量和标签进行归纳,通常是监督学习。 聚类(Clustering ):就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训...

随机森林

随机森林

参考随机森林 随机森林 用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。 建立森林中的每一棵决策树 在建立每一棵决策树的过程中,有两点需要注意 ——采样与完...

Adaboost算法

本文主要介绍一种常用的提高分类性能的统计学习方法——统计方法 提升方法

决策树

特征选择 ID3 C4.5 CART

决策树一般有三个重要部分,特征选择、生成、剪枝。 特征选择 有这么四种标准 构建分类树的话是信息增益、信息增益比、基尼指数 构建回归树的话是平方误差最小化。 生成 基本思路是,找到最佳分裂点,将数据集分成若干部分(具体地,普通决策树是根据最佳分裂特征的取值有多少个就将数据集分成几个部分,CART是只分成两部分,所以...

损失函数有感

误差计算 防止过拟化

损失函数 损失函数的基本形式为 第一项为误差 ,我们把它叫做,第二项为模型复杂度。 为了防止模型过拟化,我们才加入模型的复杂度,在保证精确度与防止模型的过拟化,我们将两项加起来,r(d) 过大,再小也没用;相反r(d)再小,大也失去了问题的意义。 书本中,或者很多机器学习的资料中,为了让全球的机器学习人员有个通用的术语,同时让大家便于死记硬本,给我上一段黑体字的部分的内容加上了一...

朴素贝叶斯

极大似然估计 贝叶斯估计

学习与分类 数据定义 为n维向量 ,表示n个特征 为标记, 训练集为N项数据: 目的 我们先明确一下我们的目的是什么?目的是根据一个特征向量 ,判断它属于哪个类 那么也就是求,意思就是在输入向量为x时,判断它为类的概率。然后将它是m个类的概率都求一遍,最终概率最大的就是它属于的类。 求解方法 分子表示的乘积为x和同时成立的概率,除以x成立的概率,就是在x成立的条件下,成...

markdown中使用LaTex

关于如何在markdown里使用LaTeX格式的公式 首先推荐一个markdown的编辑神奇Typora. 在每篇文章都加载的文件里添加脚本 <script type="text/x-mathjax-config"> MathJax.Hub.Config({ jax: ["input/TeX", "outp...

KNN k近邻法

k近邻法的构造及搜索

k近邻 给定一个训练集,对新的实例,在训练集中找到与该实例最邻近的k个实例,这k个实例属于哪个类的最多,那它就属于哪个类。 k近邻模型 三要素:距离度量、k、分类抉择规则 距离度量:如感知机篇提到的L-P范数,里面向量的各种范数可以理解为距离,如p=2就是欧氏距离,也就是空间中的距离,P=1为曼哈顿距离。 k值得选择:一般取一个较小的值,如果接近于N,那约为线性查找。通常用...

感知机

梯度下降、对偶形式

L0、L1、L2范数 L-P范数: L0:表示度量向量中非零元素的个数。 L1:表示向量x中非零元素的绝对值之和。(曼哈顿距离) L2:表示向量元素的平方和再开平方。(欧式距离) 感知机 1、感知机模型 对n维的数据中的每一个n维向量x,n维权值向量w和偏置参数b,当w·x+b>=0,输出为1,当w·x+b<0,输出为0 即 感知机就是找到一种函数将训练...

Python encode & decode总结

UTF-8 Unicode Ascii 等编码关系

声明 以上仅代表个人观点,欢迎探讨交流。 编码 以前接触过一些涉及编码的问题,但是总是以解决眼前的问题为主,如果遇到乱码的问题,一般解决的办法也都是改成UTF-8编码,很多时候这样就能解决问题。 我们最熟悉的应该是ASCII码,占一个字节,一共有256个字符,常用的是前128个。 Unicode编码的解释,如果在网上搜,有很多专业的解释,通常占两个字节,但如果要易于理解的话可以把...