2019年6月20日
摘要: 作业要求: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成news文本文件 YuChuLi.sh文件: 3.把hdfs中的文本文件最终导入 阅读全文
posted @ 2019-06-20 00:09 浅锘晗 阅读(121) 评论(0) 推荐(0) 编辑
  2019年6月1日
摘要: 本作业来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(had 阅读全文
posted @ 2019-06-01 17:35 浅锘晗 阅读(93) 评论(0) 推荐(0) 编辑
  2019年5月16日
摘要: 本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux,MySql 2.windows 与 虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的,可在虚拟机里用浏览器下载安装文件, 阅读全文
posted @ 2019-05-16 20:13 浅锘晗 阅读(96) 评论(0) 推荐(0) 编辑
  2019年5月9日
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业 爬去主题:新浪滚动新闻中心 新闻太多条,于是不想看新闻,但是又想要大概了解某段时间大概发生了什么事 2.爬取对象:滚动新闻中心的新闻标题、日期、时间 爬 阅读全文
posted @ 2019-05-09 21:14 浅锘晗 阅读(222) 评论(0) 推荐(0) 编辑
  2019年4月12日
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) requests.ge 阅读全文
posted @ 2019-04-12 17:44 浅锘晗 阅读(118) 评论(0) 推荐(0) 编辑
  2019年3月29日
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理 通过访问请求爬取网页上的数据 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; URL解析/DNS解析查找域名IP地址,网络连接发起HTT 阅读全文
posted @ 2019-03-29 17:46 浅锘晗 阅读(122) 评论(0) 推荐(0) 编辑
  2019年3月22日
摘要: https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j 阅读全文
posted @ 2019-03-22 17:49 浅锘晗 阅读(221) 评论(0) 推荐(0) 编辑
  2019年3月19日
摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 JH = {'a', 'b', 'c', 5564} print ("原始集合 JH : ", JH)JH.remove('b')print ("删除‘b’: ", JH) 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 有序 阅读全文
posted @ 2019-03-19 22:47 浅锘晗 阅读(149) 评论(0) 推荐(0) 编辑
  2019年3月10日
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 加密: 解密: 网址观察与批量生成 2.英文词频统计预处理 下载一首英文的歌词或文章或小说。 阅读全文
posted @ 2019-03-10 18:52 浅锘晗 阅读(139) 评论(0) 推荐(0) 编辑
  2019年3月3日
摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1. 这些分析所采用数据的来源是什么? 各大企业通过各自的业务搜集到的数据。 2. 大数据的呈现方式有哪些? 词云、排行榜、热力图、曲线图、扇形图等等。 3. 大数据的 阅读全文
posted @ 2019-03-03 17:28 浅锘晗 阅读(188) 评论(1) 推荐(0) 编辑