会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Y泰
博客园
首页
新随笔
新文章
联系
订阅
管理
2019年6月20日
Hadoop综合大作业
摘要: 本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 3.把hdfs中的文本文件最终导入到数据仓库Hive中 4.在H
阅读全文
posted @ 2019-06-20 21:57 Y泰
阅读(313)
评论(0)
推荐(0)
编辑
2019年6月2日
分布式文件系统HDFS 练习
摘要: 本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 一.目录操作 1. 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 2. 在用户目录下创建一个input目录 3. 在HDFS的根目录下创
阅读全文
posted @ 2019-06-02 22:25 Y泰
阅读(124)
评论(0)
推荐(0)
编辑
2019年5月16日
安装Hadoop
摘要: 作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 一. 安装Linux,MySql 1. 安装Oracle VM VirtualBox虚拟机,创建并配置Ubuntu(64 bit) ,安装配置参考http://d
阅读全文
posted @ 2019-05-16 20:36 Y泰
阅读(220)
评论(0)
推荐(0)
编辑
2019年5月9日
爬虫综合大作业
摘要: 本次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 一.把爬取的内容保存到数据库sqlite3 1. 用pandas读出之前保存的数据: 2.把爬取的内容保存到数据库sqlite3 3.保存到MySQL数据库
阅读全文
posted @ 2019-05-09 21:58 Y泰
阅读(781)
评论(0)
推荐(0)
编辑
2019年4月13日
爬取全部的校园新闻
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 1.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) reques
阅读全文
posted @ 2019-04-13 21:39 Y泰
阅读(138)
评论(0)
推荐(0)
编辑
2019年4月1日
理解爬虫原理
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 就是通过程序模拟浏览器请求站点的行为,把站点返回的html代码/Json数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数
阅读全文
posted @ 2019-04-01 21:00 Y泰
阅读(167)
评论(0)
推荐(0)
编辑
2019年3月25日
中文词频统计与词云生成
摘要: 本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计: 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba im
阅读全文
posted @ 2019-03-25 19:10 Y泰
阅读(318)
评论(0)
推荐(0)
编辑
复合数据类型,英文词频统计
摘要: 这次作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 一. 列表,元组,字典,集合分别如何增删改查及遍历。 1.列表 2.元组 3.字典 4.集合 二. 总结列表,元组,字典,集合的联系与区别。参考以下几个方面:
阅读全文
posted @ 2019-03-25 00:36 Y泰
阅读(183)
评论(0)
推荐(0)
编辑
2019年3月11日
字符串操作、文件操作,英文词频统计预处理
摘要: 作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等 ID = input('请输入十八位身份证号码: ') if len(ID) == 18: print("你的
阅读全文
posted @ 2019-03-11 21:45 Y泰
阅读(204)
评论(0)
推荐(0)
编辑
2019年3月4日
了解大数据的特点、来源与数据呈现方式
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 一.浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/29002576
阅读全文
posted @ 2019-03-04 21:02 Y泰
阅读(474)
评论(0)
推荐(0)
编辑
下一页