摘要: 最近着手看word2vec的讲解,初始要点有sigmoid,逻辑回归,贝叶斯,到神经概率模型。到这里觉得应该先转到神经网络,之前细致看过hmm的讲解,一个输入层一个输出层,期间一些转换概率发射概率等,神经网络neruon network(nn)和hmm相差多一个隐藏层,以为他们之间有什么共性或者连接 阅读全文
posted @ 2017-04-06 15:47 luoyinqq 阅读(275) 评论(0) 推荐(0) 编辑
摘要: mapreduce是什么 mapreduce是一个计算框架,所以有输入和输出。输入输出都是key/value形式的。map的key和value一对一,reduce的key是一对多的,所以value是一个迭代器。 是一个软件框架,可以并行处理,可靠且容错性高。能处理海量数据。 思想“分而治之 map: 阅读全文
posted @ 2017-04-06 15:46 luoyinqq 阅读(385) 评论(0) 推荐(0) 编辑
摘要: 条件随机场理解 1. 随机场理解 先从随机变量说起。 对于一个时间集合T内,每一个时间点t点,X(t)的数值都是随机的,那么X(t)称为随机过程。x(t)是依赖于时间的一组随机变量。它的分布函数叫做x(t)的一维概率分布函数。 如果有一个变量,依赖于两个时间t1,t2,就称为二维随机变量,有二维概率 阅读全文
posted @ 2017-04-06 15:28 luoyinqq 阅读(17534) 评论(0) 推荐(2) 编辑
摘要: mapreduce是什么 mapreduce是一个计算框架,所以有输入和输出。输入输出都是key/value形式的。map的key和value一对一,reduce的key是一对多的,所以value是一个迭代器。 是一个软件框架,可以并行处理,可靠且容错性高。能处理海量数据。 思想“分而治之 map: 阅读全文
posted @ 2017-03-31 17:41 luoyinqq 阅读(196) 评论(0) 推荐(0) 编辑
摘要: CRF工具资源一栏 CRF++: https://sourceforge.net/projects/crfpp/?source=typ_redirect java写的CRF++ : http://www.hankcs.com/nlp/segment/crf segmentation of the p 阅读全文
posted @ 2017-03-17 18:17 luoyinqq 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 第二章 计算广告基础 广告有效性原理:广告行为三阶段:选择,解释,态度 计算广告核心:为一系列用户与环境的组合找到最合适的广告投放策略来优化整体利润 `广告收入表示: 不同结算方式 第四章 合约广告 合约广告含义 合约广告:按CPM计费的展示 阅读全文
posted @ 2017-03-03 16:00 luoyinqq 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 比如说你打开一个网页,假如是新浪,上面挂了一个RTB的广告位,那么当页面加载这个广告位的时候,新浪就会向Exchange平台发起一个消息,说“我这儿有一个人要看广告了,你给我发一个广告过来吧”,Exchange平台收到这个消息之后,他会再向每一个接入到他的平台的要买广告的人(一般来说是DSP)发消息 阅读全文
posted @ 2016-04-07 17:27 luoyinqq 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 一 语法解析 语法的存储表达方式: 1 (S (NP (N Boeing)) (VP (V is) (VP (V located) (PP (P in) (NP (N Seattle))))))。 2 S代表句子 3 NP,VP,PP分别是名词短语,动词短语,介词短语 4 S,V,P分别是名,动,介 阅读全文
posted @ 2016-02-04 16:31 luoyinqq 阅读(491) 评论(0) 推荐(0) 编辑
摘要: 一 一些概念理解 熵:代表信息的不确定性。描述一件事情的时候,考虑到所有的不确定性,能将风险降到最低 最大熵:如上,描述一件未知状态时候,要尽量考虑所有的可能结果,以此估计出的结果风险才最低。从此处出发,使用最大熵模型,可以用在估计词性,要考虑到该词语的上下文条件,发音。这些都考虑到后给出的结果风险 阅读全文
posted @ 2016-01-25 18:15 luoyinqq 阅读(10092) 评论(1) 推荐(1) 编辑
摘要: 如果需要训练的模型词汇量只有50-60个,而且你的所有测试词汇都包含在训练词汇中。那么训练基于单词的模型可能比基于音素的会更好。 基于单词的模型训练方法:1)定义的phoneset改为单词列表 2)词典中的map,是单词指向它本身 而如果训练基于音素的,要保证每个连接状态有充足的例子-5~10个的例... 阅读全文
posted @ 2016-01-22 16:39 luoyinqq 阅读(414) 评论(0) 推荐(0) 编辑