2017年4月6日

[爬虫]爬取搜狗的词库

摘要: 同学要做用户搜索词意图分析,要用到分词,让我给写一个爬虫爬取搜狗词库的脚本。以前爬取网页都使用正则匹配,想要用美丽的汤很久了,正好借此机会体验一下它的强大威力。脚本对搜狗词库主页进行一级爬取结果,然后对每一个分类进行二级页面爬取,然后获取该分类下的词库文件,保存到执行脚本同目录的1文件夹下。pyth 阅读全文

posted @ 2017-04-06 21:15 mirancy 阅读(1804) 评论(0) 推荐(0) 编辑

2017年3月26日

Java学习笔记

摘要: 编译器的静态绑定和动态绑定。 以下程序的输出是father还是son? class father{ private String name = "father"; public String getname(){return name;} } public class T1 extends fath 阅读全文

posted @ 2017-03-26 18:53 mirancy 阅读(238) 评论(0) 推荐(0) 编辑

2017年3月20日

Spark的安装与配置

摘要: 安装Scala Spark编程语言可以使用Scala, Python, Java, R等。使用Scala可以用相比其他语言获得更简洁的代码,并且可以在Spark Shell中调试。Spark的实现也使用了Scala所带来的好处,整个源码大小没有过万。 Scala是一种基于JVM的函数式编程语言。描述 阅读全文

posted @ 2017-03-20 18:58 mirancy 阅读(249) 评论(0) 推荐(0) 编辑

2017年3月19日

mysql的安装过程

摘要: 首先用 rpm qa | grep mysql 查询是否已安装。 先卸载掉现有的版本 rpm e XXXXXXXXX nodeps 可以用 rpm qa | grep mysql | xargs rpm e nodeps 一次性全部卸载。 自动安装服务端 yum install mysql serv 阅读全文

posted @ 2017-03-19 18:47 mirancy 阅读(86) 评论(0) 推荐(0) 编辑

2017年3月17日

HBase的安装配置

摘要: zookeeper概述 ZooKeeper是一个分布式的,开源的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是 阅读全文

posted @ 2017-03-17 15:18 mirancy 阅读(271) 评论(0) 推荐(0) 编辑

2017年3月16日

vim操作知识累积

摘要: 多窗口操作 命令 功能 vsp+name 竖向切分当前窗口,并命名为name sp+name 横向切分当前窗口,并命名为name f newname 将窗口名改为newname close 关闭当前窗口 CTRL+W 快速按两次,在窗口间轮流切换 CTRL+W+j/k j与k上下控制窗口切换 CTR 阅读全文

posted @ 2017-03-16 21:53 mirancy 阅读(113) 评论(0) 推荐(0) 编辑

2017年3月15日

hadoop2.X解压后的配置步骤

摘要: 首先,做NN到DN的免登陆。在做DN到NN的免登陆,因为datanode使用core site.xml中配置的fs.defaultFS属性来向NN发送心跳包,从而帮助NN建立内存命名空间,保持自己的存活。 /etc/hosts 文件中,各个节点必须使用完整ip值,不可使用127.0.0.1等的特殊地 阅读全文

posted @ 2017-03-15 10:29 mirancy 阅读(298) 评论(0) 推荐(0) 编辑

2017年3月14日

免密码的SSH配置过程

摘要: 建立口令文件 要想完成A与B之间的无密码SSH访问,需要将请求认证方的SSH口令文件的公钥发送到认证方并且追加到认证文件authorized_keys中。谁要访问别人就把公钥发送给对方。 在这里,如果当前用户已经有公钥文件,说明当前用户有可能已经与其他主机建立免密码访问,可以不用生成口令文件,但也可 阅读全文

posted @ 2017-03-14 20:31 mirancy 阅读(155) 评论(0) 推荐(0) 编辑

导航