打赏
上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: 首先要准备python3+scrapy+pycharm 一、首先让我们了解一下网站 拉勾网https://www.lagou.com/ 和Boss直聘类似的网址设计方式,与智联招聘不同,它采用普通的页面加载方式 我们采用scrapy中的crawlspider爬取 二、创建爬虫程序 scrapy st 阅读全文
posted @ 2019-12-03 19:05 不像话 阅读(503) 评论(0) 推荐(0) 编辑
摘要: 一、环境准备 ①准备三台虚拟机,配置静态IP ②先修改主机名(每个节点统一命名规范) vim /etc/hostname master #重启生效 配置DNS每个节点 vim /etc/hosts 192.168.60.121 master192.168.60.122 salve1 192.168. 阅读全文
posted @ 2019-12-03 17:44 不像话 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了。。。 一、将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来,只要id、jobname、salarylevel三个字段。 再Hdfs上创 阅读全文
posted @ 2019-12-01 16:12 不像话 阅读(6375) 评论(0) 推荐(1) 编辑
摘要: 首先准备python3+scrapy+mysql+pycharm。。。 这次我们选择爬取智联招聘网站的企业招聘信息,首先我们有针对的查看网站的html源码,发现其使用的是js异步加载的方式,直接从服务端调取json数据,这就意味着我们用地址栏的网址获取的网站内容是不全的,无法获得想要的数据。 那么我 阅读全文
posted @ 2019-12-01 13:02 不像话 阅读(2127) 评论(4) 推荐(0) 编辑
摘要: 首先要有一个win10专业版的操作系统,连接上互联网。。。 一、首先打开控制面板选择程序,再选择“启用或关闭windows功能” 二、在“Windows功能”中查找“Internet信息服务”,然后选中“ftp服务”、“ftp扩展性”、“IIS管理控制台”前的复选框,再点击确定 三、点击确定后等待片 阅读全文
posted @ 2019-11-28 20:35 不像话 阅读(956) 评论(0) 推荐(0) 编辑
摘要: 前期准备,首先要有python环境+scrapy环境+pycharm环境 一、建立爬虫所需的环境,在命令行输入: scrapy startproject doubantv #命名自定义就好 会生成一个名为doubantv的文件夹,cd进入doubantv文件夹,在进入spiders文件夹,执行命令, 阅读全文
posted @ 2019-11-23 16:08 不像话 阅读(388) 评论(0) 推荐(0) 编辑
摘要: 本教程指将mysql安装到系统默认目录下,如想自定义修改目录,请在rpm安装时自行修改: rpm -ivh --prefix= /opt xxx.rpm #将xxx.rpm安装到/opt下 一、下载mysql安装包:https://dev.mysql.com/downloads/mysql/ 下载前 阅读全文
posted @ 2019-11-22 15:31 不像话 阅读(1766) 评论(0) 推荐(0) 编辑
摘要: "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。 实 阅读全文
posted @ 2019-11-19 15:35 不像话 阅读(732) 评论(0) 推荐(0) 编辑
摘要: 前言部分: 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat,他提供的RecordReder会将文本的 阅读全文
posted @ 2019-11-19 14:09 不像话 阅读(414) 评论(0) 推荐(0) 编辑
摘要: 数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中,map的输出<key,value>经 阅读全文
posted @ 2019-11-18 20:28 不像话 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 阅读全文
posted @ 2019-11-17 13:46 不像话 阅读(4208) 评论(0) 推荐(0) 编辑
摘要: 1.首先到github上下载hadoop-common-2.2.0-bin-master 2.解压放到自定义目录下 再将hadoop.dll文件复制到windows/System32目录下 3.配置环境变量 再运行项目就OK了 阅读全文
posted @ 2019-11-15 12:17 不像话 阅读(1345) 评论(0) 推荐(0) 编辑
摘要: 求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作 阅读全文
posted @ 2019-11-15 11:46 不像话 阅读(336) 评论(0) 推荐(0) 编辑
摘要: 首先了解一下Scrapy的组件: 引擎:用来处理整个系统的数据流处理,触发事务(框架核心) 调度器:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。可以想象成一个URL的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。 下载器:用于下载网页内容,并将网页内容返回给 阅读全文
posted @ 2019-11-03 14:46 不像话 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 第一部分:系统基础配置 系统基础配置中主完成了安装大数据环境之前的基础配置,如防火墙配置和安装MySQL、JDK安装等 第一步:关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信,防火墙的存在会阻拦这些访问,在初学阶段建议将防火墙全部 关闭,命令如下。 第二步:安装JDK JDK安装包已经 阅读全文
posted @ 2019-11-03 14:35 不像话 阅读(413) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页