摘要: 现在计算机处理涉及到大量的字符串操作,字符串的匹配是使用频率最高的字符串操作之一,大学数据结构与算法中字符串一章,也专门介绍了字符串匹配。 字符串的单模式匹配中最基础的算法是朴素的模式串匹配算法,比这更高级的是KMP算法。 朴素的字符串匹配算法 算法中i,j分别指示主串text和模式串pattern 阅读全文
posted @ 2017-12-09 18:04 高空降落 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 阅读全文
posted @ 2017-12-09 17:44 高空降落 阅读(3320) 评论(0) 推荐(0) 编辑
摘要: 背景 正则表达式的用处十分广泛:字符串处理、输入验证等,特别是在爬取网页中对网页内容的清洗更需要正则。 正则表达式 基本所有的语言都支持正则表达式,或者内置或者引入。正则的语法很多,但每种语言对正则支持的程度都不同(常用的语法规则基本都支持),这点需要格外注意。 元字符 正则表达式有12个特殊的标点 阅读全文
posted @ 2017-12-09 17:27 高空降落 阅读(465) 评论(0) 推荐(0) 编辑
摘要: Hadoop集群支持三种运行模式:单机模式、伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式 默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合开始时的调试工作。在eclipse中开发用的就是单机模式,这时不用HDFS。 好的如果没有安装JDK 阅读全文
posted @ 2017-12-09 17:00 高空降落 阅读(1874) 评论(0) 推荐(0) 编辑