会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
浅锘晗
博客园
首页
新随笔
新文章
联系
管理
订阅
2019年6月20日
Hadoop综合大作业
摘要: 作业要求: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成news文本文件 YuChuLi.sh文件: 3.把hdfs中的文本文件最终导入
阅读全文
posted @ 2019-06-20 00:09 浅锘晗
阅读(121)
评论(0)
推荐(0)
编辑
2019年6月1日
分布式文件系统HDFS 练习
摘要: 本作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(had
阅读全文
posted @ 2019-06-01 17:35 浅锘晗
阅读(93)
评论(0)
推荐(0)
编辑
2019年5月16日
安装Hadoop
摘要: 本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux,MySql 2.windows 与 虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的,可在虚拟机里用浏览器下载安装文件,
阅读全文
posted @ 2019-05-16 20:13 浅锘晗
阅读(96)
评论(0)
推荐(0)
编辑
2019年5月9日
爬虫综合大作业
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 爬去主题:新浪滚动新闻中心 新闻太多条,于是不想看新闻,但是又想要大概了解某段时间大概发生了什么事 2.爬取对象:滚动新闻中心的新闻标题、日期、时间 爬
阅读全文
posted @ 2019-05-09 21:14 浅锘晗
阅读(222)
评论(0)
推荐(0)
编辑
2019年4月12日
爬取全部的校园新闻
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) requests.ge
阅读全文
posted @ 2019-04-12 17:44 浅锘晗
阅读(118)
评论(0)
推荐(0)
编辑
2019年3月29日
理解爬虫原理
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 通过访问请求爬取网页上的数据 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; URL解析/DNS解析查找域名IP地址,网络连接发起HTT
阅读全文
posted @ 2019-03-29 17:46 浅锘晗
阅读(122)
评论(0)
推荐(0)
编辑
2019年3月22日
中文词频统计与词云生成
摘要: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j
阅读全文
posted @ 2019-03-22 17:49 浅锘晗
阅读(221)
评论(0)
推荐(0)
编辑
2019年3月19日
复合数据类型,英文词频统计
摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 JH = {'a', 'b', 'c', 5564} print ("原始集合 JH : ", JH)JH.remove('b')print ("删除‘b’: ", JH) 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 有序
阅读全文
posted @ 2019-03-19 22:47 浅锘晗
阅读(149)
评论(0)
推荐(0)
编辑
2019年3月10日
字符串操作、文件操作,英文词频统计预处理
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 加密: 解密: 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说。
阅读全文
posted @ 2019-03-10 18:52 浅锘晗
阅读(139)
评论(0)
推荐(0)
编辑
2019年3月3日
了解大数据的特点、来源与数据呈现方式
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1. 这些分析所采用数据的来源是什么? 各大企业通过各自的业务搜集到的数据。 2. 大数据的呈现方式有哪些? 词云、排行榜、热力图、曲线图、扇形图等等。 3. 大数据的
阅读全文
posted @ 2019-03-03 17:28 浅锘晗
阅读(188)
评论(1)
推荐(0)
编辑
下一页
公告