梁林森 - 博客园

2019年6月20日

摘要：作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 大数据分析： 1.将爬虫大作业产生的csv文件上传到HDFS Python爬取到的数据：（1）首先创建一个用于运行本案例的目录bigdatacase （2）在本地阅读全文

posted @ 2019-06-20 21:48 梁林森阅读(157) 评论(0) 推荐(0)

2019年6月3日

分布式文件系统HDFS练习

摘要：本次作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式执行start-dfs.sh命令开启进程 1.目录操作 1）在HDF 阅读全文

posted @ 2019-06-03 12:26 梁林森阅读(275) 评论(0) 推荐(0)

2019年5月16日

安装Hadoop

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux （1）虚拟机命名，选择操作系统，版本（2）选择内存大小（3）启动Ubuntu （4）添加镜像文件（5）开始安装Ubuntu （6）新阅读全文

posted @ 2019-05-16 21:35 梁林森阅读(158) 评论(0) 推荐(0)

2019年5月9日

爬虫综合大作业

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 爬虫综合大作业于2009年6月26日创建，被粉丝们亲切的称为“B站”的哔哩哔哩（bilibili），现在可以说是无人不晓。但你们是否知道哔哩哔哩这名称的来历阅读全文

posted @ 2019-05-09 21:56 梁林森阅读(361) 评论(0) 推荐(0)

2019年4月14日

爬取全部的校园新闻

摘要：本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数，并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) reque 阅读全文

posted @ 2019-04-14 23:57 梁林森阅读(200) 评论(0) 推荐(0)

2019年4月1日

理解爬虫原理

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理程序通过模拟浏览器请求站点，把站点返回的HTML代码、JSON数据、图片视频数据爬到本地，进而提取需要的数据。 2. 理解爬虫开发过程阅读全文

posted @ 2019-04-01 14:28 梁林森阅读(233) 评论(0) 推荐(0)

2019年3月25日

中文词频统计与词云生成

摘要：本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 一、中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba i 阅读全文

posted @ 2019-03-25 12:09 梁林森阅读(469) 评论(0) 推荐(0)

2019年3月24日

复合数据类型，英文词频统计

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 一、列表，元组，字典，集合分别如何增删改查及遍历 1、列表 •增 •删 •改 •查 2、元组元组与列表类似，不同之处在于元组的元素不能修改；元组中只包含一阅读全文

posted @ 2019-03-24 17:18 梁林森阅读(226) 评论(0) 推荐(0)

2019年3月11日

字符串操作、文件操作，英文词频统计预处理

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作：解析身份证号：生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成 2.英文词频统计预处理阅读全文

posted @ 2019-03-11 21:53 梁林森阅读(109) 评论(0) 推荐(0)

2019年3月4日

了解大数据的特点、来源与数据呈现方式

摘要：本次作业要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.这些分析所采用数据的来源是什么？（1）交易数据。各大交易平台点击、浏览、交易订单数据；（2）互联网上的“开放数据”来源。政府机构，非营利组织和企业免费阅读全文

posted @ 2019-03-04 12:48 梁林森阅读(266) 评论(0) 推荐(0)

公告