摘要: 这个作业的要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339。 首先,我是分析B站最火番剧剧迷们的评论,也就是我前面的文章 爬虫大作业分析的数据。下面开始进行HIVE分析。 1.数据导入。因为我是用自己的数据进行分析,不 阅读全文
posted @ 2019-06-11 09:16 林溢漫 阅读(5105) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319。 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS 功能:分布式文件系统,用来存储海量数据。 工作原理 阅读全文
posted @ 2019-06-03 14:19 林溢漫 阅读(2391) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292。 利用Shell命令与HDFS进行交互 1.目录操作 Hadoop系统安装好后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。本Linux系统采用 阅读全文
posted @ 2019-05-27 15:21 林溢漫 阅读(831) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 。 1. 简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商;国内外Hadoop应用的典型案例。 (1)Hadoo 阅读全文
posted @ 2019-05-06 11:40 林溢漫 阅读(1247) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 。 B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕。这次我的目的就是爬取B站视频的评论数据,分析某番剧为何会深受大家喜爱。 首先我通过B站 阅读全文
posted @ 2019-04-24 22:41 林溢漫 阅读(1264) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941。 我爬取的网页是某高校的新闻信息网站:http://news.gzcc.cn/html/2005/xiaoyuanxinwen_0710/4.html。 代 阅读全文
posted @ 2019-04-08 16:04 林溢漫 阅读(355) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894。 我爬取的网页是某高校的新闻信息网站:http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0328/11086.htm 阅读全文
posted @ 2019-04-01 16:12 林溢漫 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851。 1. 简单说明爬虫原理 请求网站并提取数据的自动化程序。基本流程:发起请求、获取响应内容、解析内容和保存数据。 2. 理解爬虫开发过程 1).简要说明浏览 阅读全文
posted @ 2019-03-26 00:09 林溢漫 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773。 1. 下载一长篇中文小说。 我下载的是匪我思存的中长篇小说《东宫》。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 4. 更新词 阅读全文
posted @ 2019-03-18 14:31 林溢漫 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696。 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表操作如下所示: 元组操作如下所示: 字典操作如下所示: 集合操作如下所示: 2.总结列表,元组,字 阅读全文
posted @ 2019-03-11 17:54 林溢漫 阅读(311) 评论(0) 推荐(0) 编辑