随笔分类 -  机器学习

1

朴素贝叶斯文本分类java实现
摘要:package com.data.ml.classify;import java.io.File;import java.util.ArrayList;import java.util.Collections;import java.util.HashMap;import java.util.Has... 阅读全文

posted @ 2014-09-16 15:32 雨渐渐 阅读(4023) 评论(2) 推荐(0) 编辑

机器学习入门阶段程序员易犯的5个错误
摘要:机器学习入门阶段程序员易犯的5个错误http://f.dataguru.cn/forum.php?mod=viewthread&tid=298490&fromuid=937421.将机器学习看得高不可攀机器学习不过是另一堆技术的集合,你可以用它来解决复杂问题。这是一个飞速发展的领域,因此,机器学习的... 阅读全文

posted @ 2014-06-22 21:56 雨渐渐 阅读(248) 评论(0) 推荐(0) 编辑

词聚类
摘要:http://blog.csdn.net/zhaoxinfan/article/details/11069485继上次提取关键词之后,项目组长又要求我对关键词进行聚类。说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了。按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推荐系统里面用用户访问类别向量来表示用户一样,然后就可以用kmeans的方法 进行聚类了。不过对于新闻来说存在一个问题,那就量太大,如果给你十万篇新闻,那每一个关键词将需要十万维的向量表示,随着新闻数迅速增加,那维度就更大 了,这计算起来难度太大。于是,这个方法思路简单但是不可行。好在我们有 阅读全文

posted @ 2014-03-18 18:19 雨渐渐 阅读(1551) 评论(1) 推荐(0) 编辑

ctr预估模型
摘要:http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d 阅读全文

posted @ 2014-03-12 08:30 雨渐渐 阅读(376) 评论(0) 推荐(0) 编辑

词性标注-隐马尔科夫模型应用
摘要:问题的提出已知:词序列: 寻找词性序列: 使得条件概率最大: 解:(忽略词序列概率,因为没用)图示:具体实现就是:动态规划-维特比算法 [维特比算法.....自己看吧,数学之美上有解释]概念解释:发射概率:某个词作为名词出现的频率/名词在语料库中出现的频率 也叫生成概率 某个隐状态生成显状态的概率转移概率:某个词性到另一个词性的频率/某个词性生成所有其他词性的频率(也就是这个词性的频率)初始概率:(BEMS) B/所有句子开头是BEMS的总合 阅读全文

posted @ 2013-11-03 12:32 雨渐渐 阅读(1264) 评论(0) 推荐(0) 编辑

最大熵模型(二)朗格朗日函数
摘要:求 max h(p) 等价于求: 约束条件为: 构建朗格朗日函数: 阅读全文

posted @ 2013-10-24 14:01 雨渐渐 阅读(222) 评论(0) 推荐(0) 编辑

GIS
摘要:def GIS(): global C global FeaWeights for wid in WordDic.keys(): FeaWeights[wid] = {} for classid in ClassList: FeaWeights[wid][classid] = 0.0 n = 0 prelogllh = -1000000.0 logllh = -10000.0 while logllh - prelogllh >= LogLLDiff and n < MaxIteration: ... 阅读全文

posted @ 2013-09-22 16:00 雨渐渐 阅读(259) 评论(0) 推荐(1) 编辑

最大熵模型(一)熵是什么及如何表示熵
摘要:主要参考源:http://www.zhizhihu.com/html/y2011/3489.htmlhttp://blog.sina.com.cn/s/blog_73361fab0100zi8x.html1.0 熵的概念如果一个系统ξ有多个事件S={E1,E2...En},每个事件的概率分布为P={p1,p2...pn}则每个事件本身的信息量为: 而熵为整个系统的平均信息量: 熵越大,事件越不确定。熵为0,事件是确定的。2.0 如何理解熵?1 先看两个例子 例1: 称硬币的问题,说有... 阅读全文

posted @ 2013-09-16 05:52 雨渐渐 阅读(578) 评论(0) 推荐(0) 编辑

crf 分词(待)
摘要:http://blog.csdn.net/marising/article/details/5769653 阅读全文

posted @ 2013-08-16 14:10 雨渐渐 阅读(200) 评论(0) 推荐(0) 编辑

TF-IDF
摘要:参考源:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 写的很明了package com.data.text.tfidf;import java.io.BufferedReader;import java.io.File;import java.... 阅读全文

posted @ 2013-08-06 15:15 雨渐渐 阅读(371) 评论(0) 推荐(0) 编辑

余弦相似度
摘要:转载自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html评:作者写的通俗易懂。实在不需要改进了,一下仅仅是加深个人印象,便于个人记忆。第一步:分词句子A:我/喜欢/看/电视,不/喜欢/看/电影。句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。 第二步:列出所有词我,喜欢,看,电视,电影,不,也。第三步:计算词频句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。第四步:写出词频向量句子A:[1, 2, 2, 1, 1, 1, 阅读全文

posted @ 2013-07-30 15:44 雨渐渐 阅读(474) 评论(0) 推荐(0) 编辑

文本排重
摘要:http://www.cnblogs.com/chenwenbiao/archive/2011/09/12/2174137.html 阅读全文

posted @ 2013-07-17 11:16 雨渐渐 阅读(139) 评论(0) 推荐(0) 编辑

一张图看懂大数据
摘要: 阅读全文

posted @ 2013-07-16 12:32 雨渐渐 阅读(320) 评论(0) 推荐(0) 编辑

有限状态机简单示例
摘要:package com.smart.fsm.phonebank;public class FSM { static State[][] transTable=new State[State.values().length][10]; static{ transTable[State.start.ordinal()][1]=State.chinese; transTable[State.start.ordinal()][2]=State.english; transTable[State.chinese.ordinal()][0]=S... 阅读全文

posted @ 2013-05-05 01:01 雨渐渐 阅读(237) 评论(0) 推荐(0) 编辑

简单的有限状态机
摘要:package com.smart.fsm.phonebank;public class FSM { static State[][] transTable=new State[State.values().length][10]; static{ transTable[State.start.ordinal()][1]=State.chinese; transTable[State.start.ordinal()][2]=State.english; transTable[State.chinese.ordinal()][0]=S... 阅读全文

posted @ 2012-10-14 19:56 雨渐渐 阅读(184) 评论(0) 推荐(0) 编辑

动态规划思想--最长公共子串
摘要:动态规划思想在NLP及ML中都有很多应用,比如最佳路劲选取,如隐马模型,分词的需找最佳切分路劲。这里给出一个最简单能表达这种思想的算法,最长公共字串(某些时候可以作为相似度的依据)static void Main(string[] args) { int max = LcsLen("我q北京", "我爱q北京"); Console.WriteLine(max); Console.ReadLine(); } static int LcsLen(String s1, String s2) ... 阅读全文

posted @ 2012-07-12 14:54 雨渐渐 阅读(167) 评论(0) 推荐(0) 编辑

平衡三叉Trie树
摘要:TernarySearchTrie如果加载的词典是平衡的,将大幅缩短检索路径这里给出一个c#的实现的生成平衡索引的代码public class BinaryIndexList { private static List source = null; private static List result = null; public static List CreateIndex(int length) { result = new List(); source=Enumerable.Ran... 阅读全文

posted @ 2012-05-09 23:02 雨渐渐 阅读(246) 评论(0) 推荐(0) 编辑

三叉Trie树
摘要:public class TernarySearchTrie { private static class TSTNode{ private String value=null; private TSTNode left; private TSTNode mid; private TSTNode right; private char splitChar; private TSTNode() {} private TSTNode(char... 阅读全文

posted @ 2012-05-06 21:27 雨渐渐 阅读(517) 评论(0) 推荐(0) 编辑

标准Trie树
摘要:import java.util.HashMap;import java.util.Map;public class StandardTrie { private static class TrieNode{ private int value; private Map next=new HashMap(); } private TrieNode root=new TrieNode(); public void put(String key,int value){ TrieNode current=root; for (int i = 0; i < key.length(); i++.. 阅读全文

posted @ 2012-05-05 15:50 雨渐渐 阅读(145) 评论(0) 推荐(0) 编辑

数据结构____单链表
摘要:public class WordLinkedList { private static class Node{ private char element; private Node next; private Node(char element){ this.element=element; } } private Node root; private Node tail; public void add(char item){ //方法一 性能高 Node nodeNew=new Node(item); if(root==null){ root=tail... 阅读全文

posted @ 2012-05-05 08:54 雨渐渐 阅读(124) 评论(0) 推荐(0) 编辑

1

导航