莱茵河畔的小约翰

xgboost之理论和实践

Nice GBDT

这一章pdf和实现的代码对应Githubmachine learnning中的xgboost部分。

Boosting系-AdaBoost

三个臭皮匠,顶个诸葛亮

首先我们来看看集成学习拥有魅力的原因。 在PCA(概率近似正确)的框架下,如果一个概率(一个类)可以在多项式的时间内学习到,并且正确率很高,那么就称这个概念是强可学习的;一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么就称这个概念是弱可学习的. Schapire后来证明强可学习与弱可学习是等价的,也就是说,在PAC学习的框架下,一个概念是强可学习的充分...

聚类系之K-means

好像不怎么受重视的无监督学习

性能的衡量 K-means k如何选取 如何初始化簇中心 距离的定义 k-means的局限性 参考文献 性能的衡量 对于聚类,当我们评判聚类的效果好坏时,我们通常是希望 类间越分开越好; 类内越紧凑越好 这种情况下,就需要定义各种类内的距离和类间的距离了。这里,我们不作为重点讲,...

聚类系之混合高斯模型

好像不怎么受重视的无监督学习

k-means的局限性 高斯混合聚类 EM算法求解 EM算法估计GMM参数的初始化 GMM的整个求解过程图例 过拟合 参考文献 k-means的局限性 在k-means中,我们采用的是hard assignment。也就是说,每个数据样本只能属于某一个簇。但有时侯,比如说,当我们对新闻聚类时,对于某个新闻,假设...

机器学习-模型的评价指标小结

通常谈分类模型之类的评价指标谈得很多,在此我们以二分类为例。 模型的评价 讲真,对于模型的评价中的各个指标,不知为何,我总是容易弄混淆。因此这里我也分享下将这些指标区分清楚的一些小tricks。 首先定义一下分类混淆矩阵,这是推导后面所有概念的基础。 实际\预测 Positive Negative ...

小谈决策树

数学之美--简单

决策树通用算法流程 何时停止分裂 如何选择最优划分属性 两个概念 信息增益 信息增益率 基尼指数 剪枝 连续值和缺失值的处理 参考文献 决策树通用算法流程 决策树算法是根据数据中不同的属性将数据划分到不同的区域(叶子节点)来完成分类或者回归的任务。 下面我们先来看看决策树的通用算法...

tensorflow入门教程

万事开头难

官方教程 主要的参考资料一定是要以官方教程为主的: 英文社区链接 中文社区链接 几点建议 工欲善其事,必先利其器。大家先不要慌,一上来就coding。我个人的学习经验是: 先大致浏览下API,避免后期重复造轮子 看基础教程时,前面的基础要好好理解,这很重要 看demo时,一定不要纯看官方给的perfect的代码,要自己写!!强烈建议jupyter note...

深度学习之Named Entity Recoginition(命名实体识别)

Amazing DL

由于深度学习在图像和语音信号处理上呈现出的核威力,现在NLP也是要慢慢沦陷了,一个个的NLP任务被大牛们刷起来了。今天就来看看深度学习在NLP中命名实体识别的一个简单运用。 背景 这个代码是我在上斯坦福cs224d课程时的作业。大家对深度学习在NLP中的应用有兴趣的话可以去上上这个课程。 在NLP中,一个非常基础的任务就是识别某个单词在上下文中是属于哪一类词的。以下面分类为例: ...

XGBOOST-参数调节<译>

常规导弹

理解偏置-方差折中 控制过拟合 如果说,DL是核武器的话,我觉得XGBOOST算得上常规导弹了。XGBOOST由陈天奇同学提出,从去年开始在Kaggle比赛上大放异彩。风头虽然比不上DL,可也是上镜率非常高。据说工业界用的也是非常普遍。这段时间打算学习下,顺便拿它来刷刷kaggle试试手。 闲话说完,先礼后兵。让我们慢慢的揭开常规导弹之谜。 避免重复造轮子,还是拿来主义的好。...

rnn vs dynamic_rnn

一静不如一动

官方API解读 大家在使用tensorflow中的rnn相关函数构建RNN网络时,可能会发现下面两个函数: tf.nn.rnn(cell, inputs, initial_state=None, dtype=None, sequence_length=None, scope=None) tf.nn.dynamic_rnn(cell, inputs, sequence_length=No...