11 2019 档案
摘要:首先要有一个win10专业版的操作系统,连接上互联网。。。 一、首先打开控制面板选择程序,再选择“启用或关闭windows功能” 二、在“Windows功能”中查找“Internet信息服务”,然后选中“ftp服务”、“ftp扩展性”、“IIS管理控制台”前的复选框,再点击确定 三、点击确定后等待片
阅读全文
摘要:前期准备,首先要有python环境+scrapy环境+pycharm环境 一、建立爬虫所需的环境,在命令行输入: scrapy startproject doubantv #命名自定义就好 会生成一个名为doubantv的文件夹,cd进入doubantv文件夹,在进入spiders文件夹,执行命令,
阅读全文
摘要:本教程指将mysql安装到系统默认目录下,如想自定义修改目录,请在rpm安装时自行修改: rpm -ivh --prefix= /opt xxx.rpm #将xxx.rpm安装到/opt下 一、下载mysql安装包:https://dev.mysql.com/downloads/mysql/ 下载前
阅读全文
摘要:"倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。 实
阅读全文
摘要:前言部分: 在Map阶段,使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites,同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat,他提供的RecordReder会将文本的
阅读全文
摘要:数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中,map的输出<key,value>经
阅读全文
摘要:求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作
阅读全文
摘要:1.首先到github上下载hadoop-common-2.2.0-bin-master 2.解压放到自定义目录下 再将hadoop.dll文件复制到windows/System32目录下 3.配置环境变量 再运行项目就OK了
阅读全文
摘要:求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,在数据输入到Reduce之前先经过shuffle,将map函数输出的key值相同的所有的value值形成一个集合value-list,然后将输入到Reduce端,Reduce端汇总并且统计记录数,然后作
阅读全文
摘要:首先了解一下Scrapy的组件: 引擎:用来处理整个系统的数据流处理,触发事务(框架核心) 调度器:用来接受引擎发过来的请求,压入队列中,并在引擎再次请求的时候返回。可以想象成一个URL的优先队列,由它来决定下一个要抓取的网址是什么,同时去除重复的网址。 下载器:用于下载网页内容,并将网页内容返回给
阅读全文
摘要:第一部分:系统基础配置 系统基础配置中主完成了安装大数据环境之前的基础配置,如防火墙配置和安装MySQL、JDK安装等 第一步:关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信,防火墙的存在会阻拦这些访问,在初学阶段建议将防火墙全部 关闭,命令如下。 第二步:安装JDK JDK安装包已经
阅读全文