摘要: http://www.hankcs.com/nlp/ner/place-names-to-identify-actual-hmm-viterbi-role-labeling.html命名实体识别(Named Entity Recognition)也是自然语言处理中的一个难关,特别是中文这样没有大小写... 阅读全文
posted @ 2015-01-14 18:16 Django's blog 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 与基于隐马尔可夫模型的最短路径分词、N-最短路径分词相比,基于随机条件场(CRF)的分词对未登录词有更好的支持。本文(HanLP)使用纯Java实现CRF模型的读取与维特比后向解码,内部特征函数采用双数组Trie树(DoubleArrayTrie)储存,得到了一个高性能的中文分词器。CRF简介CRF... 阅读全文
posted @ 2015-01-14 17:50 Django's blog 阅读(1727) 评论(2) 推荐(1) 编辑
摘要: http://www.hankcs.com/nlp/part-of-speech-tagging.html词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容... 阅读全文
posted @ 2015-01-14 17:48 Django's blog 阅读(1100) 评论(0) 推荐(0) 编辑
摘要: http://www.hankcs.com/nlp/hmm-and-segmentation-tagging-named-entity-recognition.htmlHMM(隐马尔可夫模型)是用来描述隐含未知参数的统计模型,举一个经典的例子:一个东京的朋友每天根据天气{下雨,天晴}决定当天的活动{... 阅读全文
posted @ 2015-01-14 17:15 Django's blog 阅读(1325) 评论(0) 推荐(0) 编辑
摘要: 为什么要用转义字符串?HTML中,&等有特殊含义(,用于链接签,&用于转义),不能直接使用。这些符号是不显示在我们最终看到的网页里的,那如果我们希望在网页中显示这些符号,该怎么办呢?这就要说到HTML转义字符串(Escape Sequence)了。转义字符串(Escape Sequence)也称字符... 阅读全文
posted @ 2015-01-14 12:19 Django's blog 阅读(859) 评论(0) 推荐(0) 编辑
摘要: 正则表达式用于字符串处理、表单验证等场合,实用高效。现将一些常用的表达式收集于此,以备不时之需。用户名:/^[a-z0-9_-]{3,16}$/密码:/^[a-z0-9_-]{6,18}$/十六进制值:/^#?([a-f0-9]{6}|[a-f0-9]{3})$/电子邮箱:/^([a-z0-9_\.... 阅读全文
posted @ 2015-01-14 12:16 Django's blog 阅读(495) 评论(0) 推荐(0) 编辑