刘铖 - 博客园

2019年6月20日

摘要：作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 大数据分析： 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 3.把hdfs中的文本文件最终导入到数据仓库Hive中阅读全文

posted @ 2019-06-20 21:54 刘铖阅读(234) 评论(0) 推荐(0)

2019年6月4日

分布式文件系统HDFS 练习

摘要： 1. 在HDFS中为hadoop用户创建一个用户目录（hadoop用户 2. 在用户目录下创建一个input目录 3. 在HDFS的根目录下创建一个名称为input的目录 4. 删除HDFS根目录中的“input”目录二.文件操作 1. 使用vim编辑器，在本地Linux文件系统的“/home/h 阅读全文

posted @ 2019-06-04 20:36 刘铖阅读(224) 评论(0) 推荐(0)

2019年5月16日

安装Hadoop

摘要：本次作业来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 1.安装Linux，MySql 2.windows 与虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的，可在虚拟机里用浏览器下载安装文件，阅读全文

posted @ 2019-05-16 20:40 刘铖阅读(107) 评论(0) 推荐(0)

2019年5月9日

爬虫综合大作业

摘要：可以用pandas读出之前保存的数据： newsdf = pd.read_csv(r'F:\duym\gzccnews.csv') 一.把爬取的内容保存到数据库sqlite3 import sqlite3with sqlite3.connect('gzccnewsdb.sqlite') as db: 阅读全文

posted @ 2019-05-09 20:45 刘铖阅读(223) 评论(0) 推荐(0)

2019年4月15日

爬取全部的校园新闻

摘要：本次作业来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 import包： 0.从新闻url获取点击次数，并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) 阅读全文

posted @ 2019-04-15 19:08 刘铖阅读(139) 评论(0) 推荐(0)

2019年4月1日

理解爬虫原理

摘要：作业要求源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理互联网就像一张大的蜘蛛网，数据便是存放在蜘蛛网的各个节点，爬虫就像一只蜘蛛，沿着网络抓去自己需要的数据。爬虫：向网站发起请求，获取资源后进行阅读全文

posted @ 2019-04-01 20:18 刘铖阅读(259) 评论(0) 推荐(0)

2019年3月25日

中文词频统计与词云生成

摘要：作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba j 阅读全文

posted @ 2019-03-25 20:45 刘铖阅读(259) 评论(0) 推荐(0)

复合数据类型，英文词频统计

摘要：这次作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 一. 列表，元组，字典，集合分别如何增删改查及遍历。 1.列表的增删改查 2.元组的增删改查 3.字典的增删改查 4.集合的增删改查二、列表、元组、字典与集阅读全文

posted @ 2019-03-25 14:05 刘铖阅读(155) 评论(0) 推荐(0)

2019年3月11日

字符串操作、文件操作，英文词频统计预处理

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作：解析身份证号：生日、性别、出生地等凯撒密码编码与解码网址观察与批量生成 2.英文词频统计预处理下载一首英文的歌词或文章或小说。将所有大写转换为阅读全文

posted @ 2019-03-11 19:59 刘铖阅读(179) 评论(0) 推荐(0)

2019年3月4日

了解大数据的特点、来源与数据呈现方式

摘要： 1.这些分析所采用数据的来源是什么？（1）交易软件产生的交易数据（2）移动通讯设备记录的数据（3）人为数据 2.大数据的呈现方式有哪些？大数据采用可视化的呈现方式；分为：指标值图形化，指标关系图形化，时间和空间可视化。 3.大数据的特点是什么？结合大数据应用案例，分析大数据对思维方式有何影响阅读全文

posted @ 2019-03-04 13:09 刘铖阅读(558) 评论(0) 推荐(0)

刘铖

公告