摘要: 对CSV文件进行预处理生成无标题文本文件,将爬虫大作业产生的csv文件上传到HDFS 首先,我们需要在本地中创建一个/usr/local/bigdatacase/dataset文件夹,具体的步骤为: ① cd /usr/local ② sudo mkdir bigdatacase ③ cd bigd 阅读全文
posted @ 2019-06-18 09:50 李嘉杰 阅读(250) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 1.HDFS: Hadoop Distributed File System Hadoop分布式文件系统 1.1功能: 1.兼容廉价的硬件设备。2.流数据的读写。3.大数据集。4.简单的文件模型。5.强大的 阅读全文
posted @ 2019-06-03 10:47 李嘉杰 阅读(535) 评论(0) 推荐(0) 编辑
摘要: 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/” 阅读全文
posted @ 2019-05-27 11:36 李嘉杰 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 一.简述Hadoop平台的起源、发展历史与应用现状。 1.列举发展过程中重要的事件、主要版本、主要厂商; 说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的GFS(Google F 阅读全文
posted @ 2019-05-12 19:50 李嘉杰 阅读(205) 评论(0) 推荐(0) 编辑
摘要: Python抓取NBA现役球员的基本信息数据 一、要求 选择一个热点或者你感兴趣的主题、爬取的对象与范围,爬取相应的内容并做数据分析与文本分析,形成一篇有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明的文章。 数据来源:NBA中国官网 库: requests 用于解析页 阅读全文
posted @ 2019-04-28 21:54 李嘉杰 阅读(480) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(url): id =re.findall('(\d{1,5})',url)[-1] clickUrl='ht 阅读全文
posted @ 2019-04-12 16:53 李嘉杰 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文
posted @ 2019-04-03 17:44 李嘉杰 阅读(159) 评论(0) 推荐(0) 编辑
摘要: 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL; 2.将这些URL放入待抓取URL队列; 3.从待抓取UR 阅读全文
posted @ 2019-03-27 10:20 李嘉杰 阅读(247) 评论(0) 推荐(0) 编辑
摘要: !pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba import jieba str="在神兽白泽的陪同下,游览大千世界,揭秘诸神奥妙。从凯尔特的神话世界出发,北欧、埃及、希腊、希伯来、印度、九州……无尽神话历史,无数神魔鬼怪 阅读全文
posted @ 2019-03-18 17:50 李嘉杰 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 一: 排序: cm=['Michael','Bob','tom','李嘉杰','Tay']cm.sort()print(cm) 插入: cm=['Michael','Bob','tom','李嘉杰','Tay']cm.insert(2,'zhanghuanm')print(cm) 统计数量: cm= 阅读全文
posted @ 2019-03-14 14:39 李嘉杰 阅读(157) 评论(0) 推荐(0) 编辑