随笔档案「2019年11月」 - 不像话

Windows10搭建本地ftp服务器

摘要：首先要有一个win10专业版的操作系统，连接上互联网。。。一、首先打开控制面板选择程序，再选择“启用或关闭windows功能” 二、在“Windows功能”中查找“Internet信息服务”，然后选中“ftp服务”、“ftp扩展性”、“IIS管理控制台”前的复选框，再点击确定三、点击确定后等待片阅读全文

posted @ 2019-11-28 20:35 不像话阅读(1005) 评论(0) 推荐(0)

python-scrapy框架爬取某瓣电视剧信息--异步加载页面

摘要：前期准备，首先要有python环境+scrapy环境+pycharm环境一、建立爬虫所需的环境，在命令行输入： scrapy startproject doubantv #命名自定义就好会生成一个名为doubantv的文件夹，cd进入doubantv文件夹，在进入spiders文件夹，执行命令，阅读全文

posted @ 2019-11-23 16:08 不像话阅读(492) 评论(0) 推荐(0)

Centos7无网络下安装mysql5.7——mysql-rpm安装

摘要：本教程指将mysql安装到系统默认目录下，如想自定义修改目录，请在rpm安装时自行修改： rpm -ivh --prefix= /opt xxx.rpm #将xxx.rpm安装到/opt下一、下载mysql安装包：https://dev.mysql.com/downloads/mysql/ 下载前阅读全文

posted @ 2019-11-22 15:31 不像话阅读(1941) 评论(0) 推荐(0)

Mapreduce实例--倒排索引

摘要："倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。实阅读全文

posted @ 2019-11-19 15:35 不像话阅读(789) 评论(0) 推荐(0)

Mapreduce实例--二次排序

摘要：前言部分：在Map阶段，使用job.setInputFormatClass定义的InputFormat将输入的数据集分割成小数据块splites，同时InputFormat提供一个RecordReder的实现。本实验中使用的是TextInputFormat，他提供的RecordReder会将文本的阅读全文

posted @ 2019-11-19 14:09 不像话阅读(449) 评论(0) 推荐(0)

Mapreduce实例--去重

摘要：数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。在MapReduce流程中，map的输出<key,value>经阅读全文

posted @ 2019-11-18 20:28 不像话阅读(844) 评论(0) 推荐(0)

Mapreduce实例--求平均值

摘要：求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作阅读全文

posted @ 2019-11-17 13:46 不像话阅读(4309) 评论(0) 推荐(0)

IDEA本地运行Hadoop程序配置环境变量

摘要：1.首先到github上下载hadoop-common-2.2.0-bin-master 2.解压放到自定义目录下再将hadoop.dll文件复制到windows/System32目录下 3.配置环境变量再运行项目就OK了阅读全文

posted @ 2019-11-15 12:17 不像话阅读(1392) 评论(0) 推荐(0)

Hadoop之WordCount

摘要：求平均数是MapReduce比较常见的算法，求平均数的算法也比较简单，一种思路是Map端读取数据，在数据输入到Reduce之前先经过shuffle，将map函数输出的key值相同的所有的value值形成一个集合value-list，然后将输入到Reduce端，Reduce端汇总并且统计记录数，然后作阅读全文

posted @ 2019-11-15 11:46 不像话阅读(364) 评论(0) 推荐(0)

python之scrapy框架基础搭建

摘要：首先了解一下Scrapy的组件：引擎：用来处理整个系统的数据流处理，触发事务（框架核心）调度器：用来接受引擎发过来的请求，压入队列中，并在引擎再次请求的时候返回。可以想象成一个URL的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址。下载器：用于下载网页内容，并将网页内容返回给阅读全文

posted @ 2019-11-03 14:46 不像话阅读(800) 评论(0) 推荐(0)

hadoop伪分布式平台组件搭建

摘要：第一部分：系统基础配置系统基础配置中主完成了安装大数据环境之前的基础配置，如防火墙配置和安装MySQL、JDK安装等第一步：关闭防火墙 Hadoop与其他组件的服务需要通过端口进行通信，防火墙的存在会阻拦这些访问，在初学阶段建议将防火墙全部关闭，命令如下。第二步：安装JDK JDK安装包已经阅读全文

posted @ 2019-11-03 14:35 不像话阅读(453) 评论(0) 推荐(0)

不像话

11 2019 档案

公告