打赏

12 2019 档案

摘要:准备工作: hadoop3.2.0+jdk1.8+centos7+zookeeper3.4.5 以上是我搭建集群使用的基础包 一、环境准备 master1 master2 slave1 slave2 slave3 jdk、NameNode、DFSZKFailoverController(zkfc) 阅读全文
posted @ 2019-12-11 19:37 不像话 阅读(1179) 评论(0) 推荐(0) 编辑
摘要:首先要准备python3+scrapy+pycharm 一、首先让我们了解一下网站 拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页面加载方式 我们采用scrapy中的crawlspider爬取 二、创建爬虫程序 scrapy st 阅读全文
posted @ 2019-12-03 19:05 不像话 阅读(510) 评论(0) 推荐(0) 编辑
摘要:一、环境准备 ①准备三台虚拟机,配置静态IP ②先修改主机名(每个节点统一命名规范) vim /etc/hostname master #重启生效 配置DNS每个节点 vim /etc/hosts 192.168.60.121 master192.168.60.122 salve1 192.168. 阅读全文
posted @ 2019-12-03 17:44 不像话 阅读(827) 评论(0) 推荐(0) 编辑
摘要:首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了。。。 一、将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来,只要id、jobname、salarylevel三个字段。 再Hdfs上创 阅读全文
posted @ 2019-12-01 16:12 不像话 阅读(6526) 评论(0) 推荐(1) 编辑
摘要:首先准备python3+scrapy+mysql+pycharm。。。 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务端调取json数据,这就意味着我们用地址栏的网址获取的网站内容是不全的,无法获得想要的数据。 那么我 阅读全文
posted @ 2019-12-01 13:02 不像话 阅读(2200) 评论(4) 推荐(0) 编辑

点击右上角即可分享
微信分享提示