李嘉杰

2019年6月18日

摘要：对CSV文件进行预处理生成无标题文本文件，将爬虫大作业产生的csv文件上传到HDFS 首先，我们需要在本地中创建一个/usr/local/bigdatacase/dataset文件夹,具体的步骤为： ① cd /usr/local ② sudo mkdir bigdatacase ③ cd bigd 阅读全文

posted @ 2019-06-18 09:50 李嘉杰阅读(292) 评论(0) 推荐(0)

2019年6月3日

分布式并行计算MapReduce

摘要：一、用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 1.HDFS: Hadoop Distributed File System Hadoop分布式文件系统 1.1功能： 1.兼容廉价的硬件设备。2.流数据的读写。3.大数据集。4.简单的文件模型。5.强大的阅读全文

posted @ 2019-06-03 10:47 李嘉杰阅读(581) 评论(0) 推荐(0)

2019年5月27日

分布式文件系统HDFS 练习

摘要： 1.目录操作在HDFS中为hadoop用户创建一个用户目录（hadoop用户）在用户目录下创建一个input目录在HDFS的根目录下创建一个名称为input的目录删除HDFS根目录中的“input”目录 2.文件操作使用vim编辑器，在本地Linux文件系统的“/home/hadoop/” 阅读全文

posted @ 2019-05-27 11:36 李嘉杰阅读(149) 评论(0) 推荐(0)

2019年5月12日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要：一.简述Hadoop平台的起源、发展历史与应用现状。 1.列举发展过程中重要的事件、主要版本、主要厂商；说到Hadoop的起源，不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念的提出者，在自身多年的搜索引擎业务中构建了突破性的GFS(Google F 阅读全文

posted @ 2019-05-12 19:50 李嘉杰阅读(241) 评论(0) 推荐(0)

2019年4月28日

爬虫大作业

摘要： Python抓取NBA现役球员的基本信息数据一、要求选择一个热点或者你感兴趣的主题、爬取的对象与范围，爬取相应的内容并做数据分析与文本分析，形成一篇有说明、技术要点、有数据、有数据分析图形化展示与说明、文本分析图形化展示与说明的文章。数据来源：NBA中国官网库： requests 用于解析页阅读全文

posted @ 2019-04-28 21:54 李嘉杰阅读(496) 评论(0) 推荐(0)

2019年4月12日

爬取全部的校园新闻

摘要： import requests from bs4 import BeautifulSoup from datetime import datetime import re def click(url): id =re.findall('(\d{1,5})',url)[-1] clickUrl='ht 阅读全文

posted @ 2019-04-12 16:53 李嘉杰阅读(186) 评论(0) 推荐(0)

2019年4月3日

获取一篇新闻的全部信息

摘要：给定一篇新闻的链接newsUrl，获取该新闻的全部信息标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文

posted @ 2019-04-03 17:44 李嘉杰阅读(176) 评论(0) 推荐(0)

2019年3月27日

理解爬虫原理

摘要：网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理；网络爬虫的基本工作流程如下： 1.首先选取一部分精心挑选的种子URL； 2.将这些URL放入待抓取URL队列； 3.从待抓取UR 阅读全文

posted @ 2019-03-27 10:20 李嘉杰阅读(265) 评论(0) 推荐(0)

2019年3月18日

中文词频统计

摘要： !pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba import jieba str="在神兽白泽的陪同下，游览大千世界，揭秘诸神奥妙。从凯尔特的神话世界出发，北欧、埃及、希腊、希伯来、印度、九州……无尽神话历史，无数神魔鬼怪阅读全文

posted @ 2019-03-18 17:50 李嘉杰阅读(844) 评论(0) 推荐(0)

2019年3月14日

复合数据类型，英文词频统计

摘要：一：排序： cm=['Michael','Bob','tom','李嘉杰','Tay']cm.sort()print(cm) 插入： cm=['Michael','Bob','tom','李嘉杰','Tay']cm.insert(2,'zhanghuanm')print(cm) 统计数量： cm= 阅读全文

posted @ 2019-03-14 14:39 李嘉杰阅读(175) 评论(0) 推荐(0)

公告