2019年6月20日

大数据应用期末总评

摘要: 本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 3.把hdfs中的文本文件最终导入到 阅读全文

posted @ 2019-06-20 21:18 聂健凯012 阅读(111) 评论(0) 推荐(0) 编辑

2019年6月4日

分布式文件系统HDFS 练习

摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 一.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoo 阅读全文

posted @ 2019-06-04 20:51 聂健凯012 阅读(88) 评论(0) 推荐(0) 编辑

2019年5月16日

安装Hadoop

摘要: 安装SQL ssh 完成java环境的安装及环境变量的配置 完成hadoop的安装 阅读全文

posted @ 2019-05-16 17:41 聂健凯012 阅读(96) 评论(0) 推荐(0) 编辑

2019年5月9日

爬虫综合大作业

摘要: 作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.read_csv(r'F:\duym\gzccnews.csv') 一.把爬取的内容保存到数据库s 阅读全文

posted @ 2019-05-09 21:11 聂健凯012 阅读(172) 评论(0) 推荐(0) 编辑

2019年4月15日

爬取全部的校园新闻

摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 : 阅读全文

posted @ 2019-04-15 16:54 聂健凯012 阅读(86) 评论(0) 推荐(0) 编辑

2019年4月1日

理解爬虫原理

摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理: 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。这篇博客主要对爬虫以及抓取系 阅读全文

posted @ 2019-04-01 16:52 聂健凯012 阅读(151) 评论(0) 推荐(0) 编辑

2019年3月25日

中文词频统计

摘要: 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 阅读全文

posted @ 2019-03-25 17:31 聂健凯012 阅读(178) 评论(0) 推荐(0) 编辑

复合数据类型,英文词频统计

摘要: 作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 1.列表,元组,字典,集合分别如何增删改查及遍历 (1)列表 #列表listlist=["yu","shu","ying","sheng","hua"];print(" 阅读全文

posted @ 2019-03-25 16:02 聂健凯012 阅读(174) 评论(0) 推荐(0) 编辑

2019年3月8日

字符串、文件操作,英文词率统计预处理

摘要: 2.凯撒密码编码与解码 结果: 3.网址观察与批量生成 结果: 4.英文词频统计预处理 结果: 词: 阅读全文

posted @ 2019-03-08 17:22 聂健凯012 阅读(119) 评论(0) 推荐(0) 编辑

2019年3月1日

了解大数据的特点、来源与数据呈现方式

摘要: 1.浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993 春节人口迁徙大数据报告!http://www.sohu.com/a/293854116_679156 春节大数据:消费首破万 阅读全文

posted @ 2019-03-01 17:32 聂健凯012 阅读(149) 评论(0) 推荐(0) 编辑

导航