摘要: 背景 正则表达式的用处十分广泛:字符串处理、输入验证等,特别是在爬取网页中对网页内容的清洗更需要正则。 正则表达式 基本所有的语言都支持正则表达式,或者内置或者引入。正则的语法很多,但每种语言对正则支持的程度都不同(常用的语法规则基本都支持),这点需要格外注意。 元字符 正则表达式有12个特殊的标点 阅读全文
posted @ 2017-12-09 17:27 高空降落 阅读(465) 评论(0) 推荐(0) 编辑
摘要: Hadoop集群支持三种运行模式:单机模式、伪分布式模式,全分布式模式,下面介绍下在Ubuntu下的部署 (1)单机模式 默认情况下,Hadoop被配置成一个以非分布式模式运行的独立JAVA进程,适合开始时的调试工作。在eclipse中开发用的就是单机模式,这时不用HDFS。 好的如果没有安装JDK 阅读全文
posted @ 2017-12-09 17:00 高空降落 阅读(1874) 评论(0) 推荐(0) 编辑
摘要: 背景 做数据爬取的时候经常采集到一些比较难懂的符号,这些符号是HTML实体字符 HTML 中的预留字符必须被替换为字符实体。 HTML 实体 在 HTML 中,某些字符是预留的。 在 HTML 中不能使用小于号(<)和大于号(>),这是因为浏览器会误认为它们是标签。 如果希望正确地显示预留字符,我们 阅读全文
posted @ 2017-11-24 16:59 高空降落 阅读(334) 评论(0) 推荐(1) 编辑