摘要:
作业要求来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339 1.将爬虫大作业产生的csv文件上传到HDFS 此次作业选取的是爬虫《反贪风暴》短评数据生成的info.csv文件;爬取的数据总数为16141条。 cm.csv文 阅读全文
摘要:
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS常用功能 1.元数据 2.检查点 3.DataNode功能 H 阅读全文
摘要:
HDFS常用功能 1.元数据 2.检查点 3.DataNode功能 HDFS工作原理 1 分布式文件系统,它所管理的文件是被切块存储在若干台datanode服务器上.2 hdfs提供了一个统一的目录树来定位hdfs中的文件,客户端访问文件时只要指定目录树的路径即可,不用关心文件的具体物理位置.3 每 阅读全文
摘要:
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3292 1.目录操作: (1)、在HDFS中为hadoop用户创建一个用户目录(hadoop用户): (2)、在用户目录下创建一个input目录 (3)、在HDFS的根目录下创 阅读全文
摘要:
作业要求来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3161 1.简述Hadoop平台的起源、发展历史与应用现状。 Hadoop系统最初的源头来自于Apache Lucene项目下的搜索引擎子项目Nutch,该项目的负责人是D 阅读全文
摘要:
本次作业爬取的是最近上映的很火热的电影《反贪风暴》。希望可以爬取一些有意义的东西。 最新电影票房排行明细: Scrapy使用的基本流程: 一.把爬取的内容保存取MySQL数据库 主要代码如下: 城市,评论,号码,昵称,评论时间,用户等级 import scrapy class MaoyanItem( 阅读全文
摘要:
1.从新闻url获取新闻详情: 字典,anews import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(xbk): id=re.findall('(\d{1,5} 阅读全文
摘要:
给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
摘要:
1. 简单说明爬虫原理 如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据 阅读全文