摘要: 1.将爬虫大作业产生的csv文件上传到HDFS 此处选取的是AllSinger.csv文件,共计35084条数据 创建文件夹 启动hadoop 在hdfs上创建文件 将文件上存到hdfs 2.对CSV文件进行预处理生成无标题文本文件 编辑pre_deal.sh文件进行数据的取舍处理 使得pre_de 阅读全文
posted @ 2019-06-13 16:28 huangzhenjie 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS的功能:元数据、检查点、DataNode功能 HDFS的工作原理: 数据存取 - HDFS架构: Master / Slave(主从结构) - 节点可以理解为物理机器 主节点,只有一个: Namen 阅读全文
posted @ 2019-06-05 18:40 huangzhenjie 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input 阅读全文
posted @ 2019-05-29 15:09 huangzhenjie 阅读(117) 评论(0) 推荐(0) 编辑
摘要: hdfsHadoop平台的起源: 2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年,Had 阅读全文
posted @ 2019-05-12 16:15 huangzhenjie 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 通过浏览器的检查元素 要想爬取这些数据,就必须在使用requests库时设置好请求的头部(headers)特别是cookie。 接下来开始分析: 首先是找到网易云音乐歌手网页: 在左侧我们可以看到歌手的分类,每个分类都对应一个url的id参数,同一类歌手又通过歌手名字的首字母进行排序,对应url中的 阅读全文
posted @ 2019-04-28 19:27 huangzhenjie 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 1.从新闻url获取新闻详情: 字典,anews 1 # -*- coding: utf-8 -*- 2 """ 3 Spyder Editor 4 5 This is a temporary script file. 6 """ 7 import requests 8 from bs4 impor 阅读全文
posted @ 2019-04-08 17:10 huangzhenjie 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-04-01 16:53 huangzhenjie 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 1. 简单说明爬虫原理 a.向服务器发起请求 b.获取响应内容 c.解析内容 d.保存内容 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 输入url,发送请求,通过网络连接,等待服务器相应返回数据,浏览器出现界面 2).使用 requests 库抓取网站数据; requests.get(u 阅读全文
posted @ 2019-03-25 17:23 huangzhenjie 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba impor 阅读全文
posted @ 2019-03-18 17:09 huangzhenjie 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合分别如何增删改查及遍历。 1.列表 2.元组 3.字典 4.集合 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号列表: 阅读全文
posted @ 2019-03-13 22:19 huangzhenjie 阅读(184) 评论(0) 推荐(0) 编辑