12 2019 档案
摘要:准备工作: hadoop3.2.0+jdk1.8+centos7+zookeeper3.4.5 以上是我搭建集群使用的基础包 一、环境准备 master1 master2 slave1 slave2 slave3 jdk、NameNode、DFSZKFailoverController(zkfc)
阅读全文
摘要:首先要准备python3+scrapy+pycharm 一、首先让我们了解一下网站 拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页面加载方式 我们采用scrapy中的crawlspider爬取 二、创建爬虫程序 scrapy st
阅读全文
摘要:一、环境准备 ①准备三台虚拟机,配置静态IP ②先修改主机名(每个节点统一命名规范) vim /etc/hostname master #重启生效 配置DNS每个节点 vim /etc/hosts 192.168.60.121 master192.168.60.122 salve1 192.168.
阅读全文
摘要:首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了。。。 一、将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来,只要id、jobname、salarylevel三个字段。 再Hdfs上创
阅读全文
摘要:首先准备python3+scrapy+mysql+pycharm。。。 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务端调取json数据,这就意味着我们用地址栏的网址获取的网站内容是不全的,无法获得想要的数据。 那么我
阅读全文