摘要:
本次作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言:本次作业爬取猫眼电影 一出好戏的评论,整合成csv文件 作业要求 1.对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDF 阅读全文
摘要:
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作: (1)、在HDFS中为hadoop用户创建一个用户目录(hadoop用户): (2)、在HDFS的根目录下创建一个名称为input的目录 (3)、删除H 阅读全文
摘要:
一.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop的起源2003-2004年,Google公布了部分GFS和MapReduce思想的细节,受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。然后Yahoo招安Doug Gu 阅读全文
摘要:
要说当今中国小成本制作电影中的佼佼者,不得不提的就是我不是药神,通过爬虫爬取豆瓣数据,分析电影 通过查阅相关资料发现 豆瓣从2017.10月开始全面禁止爬取数据,仅仅开放500条数据,白天1分钟最多可以爬取40次,晚上一分钟可爬取60次数,超过此次数则会封禁IP地址。 所以需要控制数据爬取数量 登陆 阅读全文
摘要:
1.从新闻url获取新闻详情: 字典,anews 结果如下 2.从列表页的url获取新闻url:列表append(字典) alist 结果如图 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 .4.设置合理的爬取间隔 5. 阅读全文
摘要:
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId 阅读全文
摘要:
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1. 简单说明爬虫原理 1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 Request模块缺陷:不能执行 阅读全文
摘要:
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba impor 阅读全文
摘要:
作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合分别如何增删改查及遍历。 (1)列表 执行效果图如下图所示 (2)元组 执行效果如下图所示: (3)字典 执行效果如下图所示: (4)集 阅读全文
摘要:
该作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.字符串操作:解析身份证号:生日、性别、出生地 结果如图: 2.凯撒密码编码与解码 #凯撒密码编码与解码word=input("请输入一段字母:");n=in 阅读全文