田仕钊

2019年6月18日

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 创建文件夹，再放入数据文件。预处理并查询数据设置权限启动全部服务器在HDFS上传文件夹/bigdatacase/dataset 在HDFS上传we_table. 阅读全文

posted @ 2019-06-18 18:12 田仕钊阅读(166) 评论(0) 推荐(0)

2019年6月4日

分布式文件系统HDFS 练习

摘要：作业缘由：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3310 利用Shell命令与HDFS进行交互以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作：（1）、在HDFS中为hadoop用户创建一个用户目录（阅读全文

posted @ 2019-06-04 11:20 田仕钊阅读(204) 评论(0) 推荐(0)

2019年5月16日

安装Hadoop

摘要：本次作业的要求来自于https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3223 完成Hadoop的安装与配置安装数据库成功安装ssh并实现无密码登录检测Hadoop可用 Hadoop伪分布配置用jps查看阅读全文

posted @ 2019-05-16 16:01 田仕钊阅读(118) 评论(0) 推荐(0)

2019年5月9日

爬虫综合大作业

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据： newsdf = pd.read_csv(r'F:\duym\gzccnews.csv') 一.把爬取的内容保存取MySQL数据阅读全文

posted @ 2019-05-09 13:53 田仕钊阅读(283) 评论(0) 推荐(0)

2019年4月15日

爬取全部的校园新闻

摘要：作业要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数，并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) requests.ge 阅读全文

posted @ 2019-04-15 15:08 田仕钊阅读(135) 评论(0) 推荐(0)

2019年4月1日

理解爬虫原理

摘要：这次作业的要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881 1. 简单说明爬虫原理（1）模拟计算机对服务器发起Request请求；（2）接收服务器的Response内容并解析、提取所需的信息。 2. 理解爬虫开发过阅读全文

posted @ 2019-04-01 14:52 田仕钊阅读(170) 评论(0) 推荐(0)

2019年3月25日

中文词频统计与词云生成

摘要：本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 一、中文词频统计 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba i 阅读全文

posted @ 2019-03-25 16:20 田仕钊阅读(432) 评论(0) 推荐(0)

2019年3月22日

复合数据类型，英文词频统计

摘要：作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753 1.列表，元组，字典，集合分别如何增删改查及遍历列表：元组：字典：集合：遍历函数，其下格式为： 2.总结列表，元组，字典，集合的联系与区别。参考以下几个方阅读全文

posted @ 2019-03-22 15:56 田仕钊阅读(154) 评论(0) 推荐(0)

2019年3月11日

字符串操作、文件操作，英文词频统计预处理

摘要：作业的要求：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2684 1.字符串操作：解析身份证号：生日、性别、出生地等。 idCard=input("输入身份证号码：") local=idCard[0:2] bronYear=idC 阅读全文

posted @ 2019-03-11 14:58 田仕钊阅读(333) 评论(0) 推荐(0)

2019年3月4日

了解大数据的特点、来源与数据呈现方式

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.浏览2019春节各种大数据分析报告，例如：这世间，再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313 阅读全文

posted @ 2019-03-04 15:07 田仕钊阅读(423) 评论(0) 推荐(0)

公告