天安永龙

2019年6月16日

摘要：本次作业的要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 前言：本次作业爬取猫眼电影一出好戏的评论，整合成csv文件作业要求 1.对CSV文件进行预处理生成无标题文本文件，将爬虫大作业产生的csv文件上传到HDF 阅读全文

posted @ 2019-06-16 19:08 天安永龙阅读(540) 评论(0) 推荐(0) 编辑

2019年5月31日

分布式文件系统HDFS练习

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作：（1）、在HDFS中为hadoop用户创建一个用户目录（hadoop用户）：（2）、在HDFS的根目录下创建一个名称为input的目录（3）、删除H 阅读全文

posted @ 2019-05-31 21:47 天安永龙阅读(232) 评论(0) 推荐(0) 编辑

2019年5月12日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要：一.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop的起源2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gu 阅读全文

posted @ 2019-05-12 21:19 天安永龙阅读(162) 评论(0) 推荐(0) 编辑

2019年4月28日

爬虫综合大作业

摘要：要说当今中国小成本制作电影中的佼佼者，不得不提的就是我不是药神，通过爬虫爬取豆瓣数据，分析电影通过查阅相关资料发现豆瓣从2017.10月开始全面禁止爬取数据，仅仅开放500条数据，白天1分钟最多可以爬取40次，晚上一分钟可爬取60次数，超过此次数则会封禁IP地址。所以需要控制数据爬取数量登陆阅读全文

posted @ 2019-04-28 21:07 天安永龙阅读(539) 评论(0) 推荐(0) 编辑

2019年4月8日

爬取全部的校园新闻

摘要： 1.从新闻url获取新闻详情：字典,anews 结果如下 2.从列表页的url获取新闻url：列表append(字典) alist 结果如图 3.生成所页列表页的url并获取全部新闻：列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 .4.设置合理的爬取间隔 5. 阅读全文

posted @ 2019-04-08 17:57 天安永龙阅读(124) 评论(0) 推荐(0) 编辑

2019年4月1日

作业六｜获取一篇新闻的全部信息

摘要：作业要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl，获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId 阅读全文

posted @ 2019-04-01 16:39 天安永龙阅读(173) 评论(0) 推荐(0) 编辑

2019年3月25日

理解爬虫原理

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1. 简单说明爬虫原理 1、发起请求使用http库向目标站点发起请求，即发送一个Request Request包含：请求头、请求体等 Request模块缺陷：不能执行阅读全文

posted @ 2019-03-25 17:45 天安永龙阅读(130) 评论(0) 推荐(0) 编辑

2019年3月18日

作业——04 中文词频统计

摘要：作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba impor 阅读全文

posted @ 2019-03-18 17:21 天安永龙阅读(167) 评论(0) 推荐(0) 编辑

2019年3月14日

复合数据类型，英文词频统计

摘要：作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表，元组，字典，集合分别如何增删改查及遍历。（1）列表执行效果图如下图所示（2）元组执行效果如下图所示：（3）字典执行效果如下图所示：（4）集阅读全文

posted @ 2019-03-14 21:01 天安永龙阅读(152) 评论(0) 推荐(0) 编辑

2019年3月6日

字符串、文件操作，英文词频统计预处理

摘要：该作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.字符串操作：解析身份证号：生日、性别、出生地结果如图: 2.凯撒密码编码与解码 #凯撒密码编码与解码word=input("请输入一段字母：");n=in 阅读全文

posted @ 2019-03-06 15:29 天安永龙阅读(170) 评论(0) 推荐(0) 编辑

公告