随笔分类 -  自然语言处理

未登录词识别
摘要:未登录词识别:不在词典中的词---新词:杀马特---命名实体:奥克兰主要解决方案:基于规则合词,然后通过百度验证。Start Char Char 1-2-Combine #[图 n][里 f][市场 n][站 n]Start Char Char Char 1-3-Combine #Start Cha... 阅读全文

posted @ 2014-09-10 20:22 雨渐渐 阅读(2005) 评论(0) 推荐(0) 编辑

中文分词索引
摘要:基本原理词典的存储基于规则的分词词性标注未登录词识别关键词提取:TF-IDF朴素贝叶斯文本分类 阅读全文

posted @ 2014-09-10 20:12 雨渐渐 阅读(280) 评论(0) 推荐(0) 编辑

基于语言模型最优路径搜索
摘要: 阅读全文

posted @ 2014-09-10 20:10 雨渐渐 阅读(173) 评论(0) 推荐(0) 编辑

繁简对照表
摘要:import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStream;import java.util.StringTokenizer;import java.io.InputStreamReader;import java.util.HashMap;/** * 简体繁体映射表 * @author dell * */public class TCharMap { private static TCharMap converter = new T... 阅读全文

posted @ 2014-01-22 16:28 雨渐渐 阅读(234) 评论(0) 推荐(0) 编辑

词性标注-隐马尔科夫模型应用
摘要:问题的提出已知:词序列: 寻找词性序列: 使得条件概率最大: 解:(忽略词序列概率,因为没用)图示:具体实现就是:动态规划-维特比算法 [维特比算法.....自己看吧,数学之美上有解释]概念解释:发射概率:某个词作为名词出现的频率/名词在语料库中出现的频率 也叫生成概率 某个隐状态生成显状态的概率转移概率:某个词性到另一个词性的频率/某个词性生成所有其他词性的频率(也就是这个词性的频率)初始概率:(BEMS) B/所有句子开头是BEMS的总合 阅读全文

posted @ 2013-11-03 12:32 雨渐渐 阅读(1264) 评论(0) 推荐(0) 编辑

词性标注对照表
摘要:形容词aa形容词最/d 大/a 的/utrue副形词adad副形词一定/d 能够/v 顺利/ad 实现/v 。/wtrue形语素Agag形语素喜/v 煞/Ag 人/ntrue名形词anan名形词人民/n 的/u 根本/a 利益/n 和/c 国家/n 的/u 安稳/an 。/wtrue区别词bb区别词副/b 书记/n 王/nr 思齐/nrtrue连词cc连词全军/n 和/c 武警/n 先进/a 典型/n 代表/ntrue副词dd副词两侧/f 台柱/n 上/f 分别/d 雄踞/v 着/utrue副语素Dgdg副语素用/v 不/d 甚/Dg 流利/a 的/u 中文/nz 主持/v 节目/n ... 阅读全文

posted @ 2013-11-02 13:31 雨渐渐 阅读(1558) 评论(0) 推荐(0) 编辑

有限状态机简单示例
摘要:package com.smart.fsm.phonebank;public class FSM { static State[][] transTable=new State[State.values().length][10]; static{ transTable[State.start.ordinal()][1]=State.chinese; transTable[State.start.ordinal()][2]=State.english; transTable[State.chinese.ordinal()][0]=S... 阅读全文

posted @ 2013-05-05 01:01 雨渐渐 阅读(237) 评论(0) 推荐(0) 编辑

语法树
摘要:个人感觉有点类似于有限状态机package com.smart.enumcompareto.test;import com.smart.enumcompareto.test.TernarySearchTrie.TSTNode;/** * 语法树匹配到的结果,记录最终节点和最终节点的index * * @author dell * */public class MatchRet { private int index; private TSTNode node; public MatchRet(TSTNode node,int index){ this.i... 阅读全文

posted @ 2012-10-19 09:07 雨渐渐 阅读(232) 评论(0) 推荐(0) 编辑

正向最大长度匹配与逆向最大长度匹配
摘要:package com.smart.basic;public class TernarySearchTrie { public final class TSTNode { /** * 节点的值,词原文,词性,词频等 */ public String data = null; /** * 低节点 */ protected TSTNode loNode; /** * 相等节点 */ protected TSTNod... 阅读全文

posted @ 2012-10-16 23:18 雨渐渐 阅读(969) 评论(0) 推荐(0) 编辑

动态规划思想--最长公共子串
摘要:动态规划思想在NLP及ML中都有很多应用,比如最佳路劲选取,如隐马模型,分词的需找最佳切分路劲。这里给出一个最简单能表达这种思想的算法,最长公共字串(某些时候可以作为相似度的依据)static void Main(string[] args) { int max = LcsLen("我q北京", "我爱q北京"); Console.WriteLine(max); Console.ReadLine(); } static int LcsLen(String s1, String s2) ... 阅读全文

posted @ 2012-07-12 14:54 雨渐渐 阅读(167) 评论(0) 推荐(0) 编辑

平衡三叉Trie树
摘要:TernarySearchTrie如果加载的词典是平衡的,将大幅缩短检索路径这里给出一个c#的实现的生成平衡索引的代码public class BinaryIndexList { private static List source = null; private static List result = null; public static List CreateIndex(int length) { result = new List(); source=Enumerable.Ran... 阅读全文

posted @ 2012-05-09 23:02 雨渐渐 阅读(246) 评论(0) 推荐(0) 编辑

三叉Trie树
摘要:public class TernarySearchTrie { private static class TSTNode{ private String value=null; private TSTNode left; private TSTNode mid; private TSTNode right; private char splitChar; private TSTNode() {} private TSTNode(char... 阅读全文

posted @ 2012-05-06 21:27 雨渐渐 阅读(517) 评论(0) 推荐(0) 编辑

标准Trie树
摘要:import java.util.HashMap;import java.util.Map;public class StandardTrie { private static class TrieNode{ private int value; private Map next=new HashMap(); } private TrieNode root=new TrieNode(); public void put(String key,int value){ TrieNode current=root; for (int i = 0; i < key.length(); i++.. 阅读全文

posted @ 2012-05-05 15:50 雨渐渐 阅读(145) 评论(0) 推荐(0) 编辑

导航