摘要: 老套的搬用一下rsync的介绍,rsync是Linux系统下的数据镜像备份工具,从软件的命名上就可以看出来了——remote sync。rsync支持大多数的类Unix系统,无论是Linux、Solaris还是BSD上都经过了良好的测试。它的特性如下:1、可以镜像保存整个目录树和文件系统。2、可以很... 阅读全文
posted @ 2015-01-15 16:51 Django's blog 阅读(663) 评论(0) 推荐(0) 编辑
摘要: http://www.hankcs.com/nlp/parsing/crf-sequence-annotation-chinese-dependency-parser-implementation-based-on-java.html这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采... 阅读全文
posted @ 2015-01-15 12:12 Django's blog 阅读(1647) 评论(0) 推荐(0) 编辑
摘要: 算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,... 阅读全文
posted @ 2015-01-15 12:09 Django's blog 阅读(2160) 评论(0) 推荐(2) 编辑