摘要:
我要稳稳的幸福,不管未来怎样的,时光总会,有一些启示。 阅读全文
摘要:
由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词工具。 Bakeof... 阅读全文
摘要:
如何提高阅读源代码的效率 记得在开源流行之前,我看过的代码紧限于所参与的项目,能有个几万行就不错哩。后来很多优秀开源项目都相继蹦出来了,阅读的代码量那叫一个大呀!不得不看。我现在掉到android这个大坑里,每天都要看很多源代码。以前做过J2EE,看Struts2、Lucene、OSW... 阅读全文
摘要:
打好jar包之后还需要更改清单文件的. 打开生成的jar,里面有一个MANIFEST.MF的文件把它打开. 然后有一行Main-Class,没有就加上。如: Manifest-Version: 1.0 Main-Class: 类的全地址 要在后面加上你的主main class文件.... 阅读全文
摘要:
中文分词 最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取... 阅读全文
摘要:
Contents What is Trie?What Does It Take to Implement a Trie?Tripple-Array TrieDouble-Array TrieSuffix CompressionKey InsertionKey DeletionDouble-Ar... 阅读全文
摘要:
分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐 阅读全文
摘要:
指数分布族:伯努利分布、高斯分布、多项式分布、泊松分布、伽马分布。 伯努利分布用来对0-1问题进行建模 多项式分布用来对有K个结果的事件进行建模 泊松分布通常是用来对计数的过程进行建模 伽马分布和指数分布考虑的是正数的分布,经常被用来对间隔进行建模 β分布和迪利克雷分布通常用来对小数进行建模,... 阅读全文
摘要:
充分统计量 编辑 统计量是样本数据的函数,在统计学中,T(x) 为未知分布P的参数θ的充分统计量,当且仅当T(x)可以提供θ的全部信息,也就是说,没有统计量可以提供关于θ的额外信息。 统计量是实际上是一种对数据分布的压缩,在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若... 阅读全文
摘要:
今天晚上不想看书,就写了一晚上Java,期间主要是在协调各个文件之间的调用。软件工程的知识:重要。 阅读全文