摘要: 一.问题描述 1.1文本建模相关 统计文本建模的目的其实很简单:就是估算一组参数,这组参数使得整个语料库出现的概率最大。这是很简单的极大似然的思想了,就是认为观测到的样本的概率是最大的。建模的目标也是这样,下面就用数学来表示吧。一开始来说,先要注意假设了一些隐变量z,也就是topic。每个文档都符合 阅读全文
posted @ 2017-06-03 09:39 雪饮者 阅读(5252) 评论(0) 推荐(0) 编辑
摘要: 记得以前有人问过我,网页去重算法有哪些,我不假思索的说出了余弦向量相似度匹配,但如果是数十亿级别的网页去重呢?这下糟糕了,因为每两个网页都需要计算一次向量内积,查重效率太低了!我当时就想:论查找效率肯定是要考虑hash算法,相同字符串的hashcode肯定相同,不同字符串的hashcode却是大不相 阅读全文
posted @ 2017-05-29 21:29 雪饮者 阅读(2167) 评论(0) 推荐(0) 编辑
摘要: 条件随机场(conditional random fields,简称 CRF,或CRFs)下文简称CRF,是一种典型的判别模型,相比隐马尔可夫模型可以没有很强的假设存在,在分词、词性标注、命名实体识别等领域有较好的应用。CRF是在马尔可夫随机场的基础上加上了一些观察值(特征),马尔可夫随机场<=>概 阅读全文
posted @ 2017-05-21 23:13 雪饮者 阅读(10276) 评论(0) 推荐(1) 编辑
摘要: 本篇以信息增益最大作为最优化策略来详细介绍决策树的决策流程。 首先给定数据集,见下图 注:本数据来源于网络 本篇将以这些数据作为训练数据(虽然少,但足以介绍清楚原理!),下图是决策树选择特征的流程 图中entropy代表决策树在根节点处的信息熵,Entropy(age)表示用age这个特征作为分支节 阅读全文
posted @ 2017-05-14 22:01 雪饮者 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 机器学习按数据的使用方式来说可以分为有监督学习、无监督学习、半监督学习、强化学习等,机器学习中的算法还有另外一种划分方式:分类、聚类、回归。但我更喜欢分为两种:广义的分类(分类+聚类)和回归,这里是按照预测的结果是离散数据还是连续数据来划分的。今天要介绍的决策树就是分类算法中的一种。 在介绍机器学习 阅读全文
posted @ 2017-05-07 23:37 雪饮者 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 这是笔者第一次写博客,真的很想给大家贡献一些有价值的东西,所以就先从笔者认为最重要的说起吧! 话说地球诞生之初肯定是没有生物的,直到后来环境中具备了一定的因素,开始形成一些生物大分子,然后这些生物大分子开始聚合,(他们为啥子要聚合在一起呢?大概是因为某种化学的力作用,那大分子又是如何形成的呢?就权当 阅读全文
posted @ 2017-04-30 18:10 雪饮者 阅读(471) 评论(0) 推荐(0) 编辑