068郑达 - 博客园

2019年6月19日

摘要：作业要求来源于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.将爬虫大作业产生的csv文件上传到HDFS 此次作业选取的是爬虫《反贪风暴》短评数据生成的info.csv文件；爬取的数据总数为16141条。 cm.csv文阅读全文

posted @ 2019-06-19 18:59 068郑达阅读(578) 评论(0) 推荐(0) 编辑

2019年6月6日

hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程

摘要：作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS常用功能 1.元数据 2.检查点 3.DataNode功能 H 阅读全文

posted @ 2019-06-06 21:53 068郑达阅读(615) 评论(0) 推荐(0) 编辑

2019年6月3日

hadoop平台上HDFS和MAPREDUCE的功能、工作原理和工作过程

摘要： HDFS常用功能 1.元数据 2.检查点 3.DataNode功能 HDFS工作原理１　分布式文件系统，它所管理的文件是被切块存储在若干台datanode服务器上.２　hdfs提供了一个统一的目录树来定位hdfs中的文件，客户端访问文件时只要指定目录树的路径即可，不用关心文件的具体物理位置．３　每阅读全文

posted @ 2019-06-03 09:59 068郑达阅读(326) 评论(0) 推荐(0) 编辑

2019年5月31日

分布式文件系统HDFS练习

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作：（1）、在HDFS中为hadoop用户创建一个用户目录（hadoop用户）：（2）、在用户目录下创建一个input目录（3）、在HDFS的根目录下创阅读全文

posted @ 2019-05-31 21:41 068郑达阅读(202) 评论(0) 推荐(0) 编辑

2019年5月20日

hive的安装

摘要：阅读全文

posted @ 2019-05-20 00:20 068郑达阅读(145) 评论(0) 推荐(0) 编辑

2019年5月12日

安装关系型数据库MySQL和大数据处理框架Hadoop

摘要：作业要求来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch，该项目的负责人是D 阅读全文

posted @ 2019-05-12 17:30 068郑达阅读(193) 评论(0) 推荐(0) 编辑

2019年4月28日

爬虫综合大作业

摘要：本次作业爬取的是最近上映的很火热的电影《反贪风暴》。希望可以爬取一些有意义的东西。最新电影票房排行明细： Scrapy使用的基本流程：一.把爬取的内容保存取MySQL数据库主要代码如下：城市，评论，号码，昵称，评论时间，用户等级 import scrapy class MaoyanItem( 阅读全文

posted @ 2019-04-28 21:27 068郑达阅读(275) 评论(0) 推荐(0) 编辑

2019年4月12日

爬取全部的校园新闻

摘要： 1.从新闻url获取新闻详情：字典,anews import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(xbk): id=re.findall('(\d{1,5} 阅读全文

posted @ 2019-04-12 21:30 068郑达阅读(171) 评论(0) 推荐(0) 编辑

2019年4月3日

获取一篇新闻的全部信息

摘要：给定一篇新闻的链接newsUrl，获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文

posted @ 2019-04-03 20:40 068郑达阅读(166) 评论(0) 推荐(0) 编辑

2019年3月27日

理解爬虫原理

摘要： 1. 简单说明爬虫原理如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据阅读全文

posted @ 2019-03-27 20:48 068郑达阅读(176) 评论(0) 推荐(0) 编辑

公告