摘要: 1.准备本次数据分析的数据(以下为爬虫大作业获取的CSV文件) 2.(1)将CSV文件上传到hdfs上 (2)查看文件中前10条信息,即可证明是否上传成功。 3.预处理文件,将CSV文件生成txt文件 (1)先删除第一行字段 (2)将文本文件上传的hdfs上并查看 5.启动hdfs并启动MySQL服 阅读全文
posted @ 2019-06-21 13:16 cjvil 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS (1)第一次启动 namenode 格式化后,创建 fsimage 和 edits 文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。(2)客户端对元数据进行增删改的请求。(3)name 阅读全文
posted @ 2019-06-05 21:05 cjvil 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作: (1)、在HDFS中为hadoop用户创建一个用户目录(hadoop用户): (2)在用户目录下创建一个input目录 (3)、在HDFS的根目录下创建 阅读全文
posted @ 2019-05-30 21:32 cjvil 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1. 简述Hadoop平台的起源、发展历史与应用现状。 列举发展过程中重要的事件、主要版本、主要厂商; 国内外Hadoop应用的典型案例。 (1)Hadoop起源 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的 阅读全文
posted @ 2019-05-10 10:28 cjvil 阅读(103) 评论(0) 推荐(0) 编辑
摘要: 从爬出的数据不难发现,现役nba球员绝大部分是美国人。可想而知,美国本土的篮球文化是多么的浓厚。其中,也有其它国家的球员。那么我们可以从分析的数据中了解下其它国家的球员到底是谁.... 西班牙籍球员: 法国籍球员: 原来爵士的内线高塔戈贝尔就是法国球员哦~ 再来看下联盟球员球衣号码的数量统计 这样就 阅读全文
posted @ 2019-04-28 21:22 cjvil 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews 4.设置合理的爬取间隔 import time import random time.sl 阅读全文
posted @ 2019-04-12 11:02 cjvil 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-04-01 21:20 cjvil 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 1. 简单说明爬虫原理 简单来说模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; (1):向服务器发起请求,通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务 阅读全文
posted @ 2019-03-27 15:48 cjvil 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 阅读全文
posted @ 2019-03-18 20:21 cjvil 阅读(140) 评论(0) 推荐(0) 编辑
摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 有序无序 可变不可变 重复不可重复 存储与查找方式 是 3.词频统计 1.下载一长篇小说,存成utf-8编码的文本文件 file 2.通过文件读取字符串 str 3.对文本进行预 阅读全文
posted @ 2019-03-14 14:34 cjvil 阅读(103) 评论(0) 推荐(0) 编辑