2019年6月11日

【大数据应用期末总评】Hadoop综合大作业

摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 一、Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 爬取的数据总共有10个表格(分别是不同类别) 2.对CSV文件进行预处理生成无标 阅读全文

posted @ 2019-06-11 10:38 makky 阅读(1118) 评论(0) 推荐(0) 编辑

2019年6月3日

【大数据作业十一】分布式并行计算MapReduce

摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS是一个hadoop平台分布式文件系统,主要是用来存储和读取数据的。 阅读全文

posted @ 2019-06-03 10:59 makky 阅读(474) 评论(0) 推荐(0) 编辑

2019年5月27日

【大数据作业十】分布式文件系统HDFS 练习

摘要: 作业要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(ha 阅读全文

posted @ 2019-05-27 11:45 makky 阅读(261) 评论(0) 推荐(0) 编辑

2019年5月6日

【大数据作业九】安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 4.简述Hadoop平台的起源、发展历史与应用现状。 列举发展过程中重要的事件、主要版本、主要厂商; 国内外Hadoop应用的典型案例。 Hadoop发展史 一、重要的 阅读全文

posted @ 2019-05-06 11:51 makky 阅读(183) 评论(0) 推荐(0) 编辑

2019年4月28日

【爬虫综合大作业】腾讯视频——大家到底都在看什么?!

摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 相信大家都有在腾讯视频上看过视频,那大家是否知道腾讯视频里有个【热搜榜】,它是用户们所搜索的视频热度排行榜。 那么今天我们就来爬爬看,大家都在腾讯视频上看些什么! 【腾 阅读全文

posted @ 2019-04-28 15:09 makky 阅读(834) 评论(0) 推荐(0) 编辑

2019年4月8日

【大数据作业七】爬取全部的校园新闻

摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941 1.从新闻url获取新闻详情: 字典,anews 主要代码: 1 import requests 2 from bs4 import BeautifulSoup 3 阅读全文

posted @ 2019-04-08 11:57 makky 阅读(270) 评论(0) 推荐(0) 编辑

2019年4月1日

【大数据作业六】获取一篇新闻的全部信息

摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId 阅读全文

posted @ 2019-04-01 12:11 makky 阅读(262) 评论(0) 推荐(0) 编辑

2019年3月25日

【大数据作业五】理解爬虫原理

摘要: 作业要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851 1. 简单说明爬虫原理 向网站发起请求,获取资源后分析并提取有用数据的程序。 流程: 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器渲染过程: 解 阅读全文

posted @ 2019-03-25 16:13 makky 阅读(207) 评论(0) 推荐(0) 编辑

2019年3月18日

【大数据作业四】中文词频统计

摘要: 作业要求来自: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773 中文词频统计 1. 下载一长篇中文小说。 《挪威的森林》 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieb 阅读全文

posted @ 2019-03-18 17:30 makky 阅读(344) 评论(0) 推荐(0) 编辑

2019年3月11日

【大数据作业三】复合数据类型,英文词频统计

摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2696 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表: 1 #列表的增 2 cm=['Tracy','Tom','Jack','李三','Angel'] 3 c 阅读全文

posted @ 2019-03-11 17:46 makky 阅读(211) 评论(0) 推荐(0) 编辑

导航