摘要: 1导入数据表并且去掉头部的第一条数据,然后查看签名5条数据 2 预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换: 3转换后的txt表,可以看见有中文的地区名 4 开启Hadoop,hive 5 在hdfs上创建一个bigdatacase/dataset文件夹 6将之前转 阅读全文
posted @ 2019-06-14 18:14 一觉不觉已千年 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 1.阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS功能:是Hadoop项目的核心子项目。是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上 pc server。 具有以下的功能:(1)高容错性 : 阅读全文
posted @ 2019-06-03 16:42 一觉不觉已千年 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件:姓名.txt 在该文件里面可以随 阅读全文
posted @ 2019-05-27 15:06 一觉不觉已千年 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 一.Hadoop 产生背景 • 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引 擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加, • 遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 • 2. 2003年、2004年谷歌发表的两篇 阅读全文
posted @ 2019-05-06 10:30 一觉不觉已千年 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 一.把爬取的内容保存取MySQL数据库: 二.爬虫综合大作业: 爬虫目标:关于《人中之龙》这首音乐在网页云音乐的评论人的情况。 以上是爬取网易云音乐的关于《人中之龙》这首音乐评论人员的评论时间,评论人的地区,评论内容等,保存到文件里,如下图: 总共2000来条评论数据。 以下是对评论用户所在的省份进 阅读全文
posted @ 2019-04-22 16:20 一觉不觉已千年 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time i 阅读全文
posted @ 2019-04-08 15:25 一觉不觉已千年 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 新闻的链接:http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0331/11110.html 阅读全文
posted @ 2019-04-01 15:37 一觉不觉已千年 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 1.爬虫原理: 向网站发起请求,获取资源后分析并提取有用数据的程序; 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地,进而提取自己需要的数据,存放起来使用。 2.爬虫开发过程: (1)、 浏览器工作原理: 浏览器工作原 阅读全文
posted @ 2019-03-25 15:57 一觉不觉已千年 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 以下是三国演义的词库,将其引入: 要分析的文本,《三国演义》: 要过滤的词语: 运行结果图: 因为运行wordcloud老是出现下面错误,就用网上的在线词云。 阅读全文
posted @ 2019-03-18 15:28 一觉不觉已千年 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 列表,元组,字典,集合增删改查及遍历: #列表的增删改查遍历list1 = list('this is a list')list1.append('!') #末尾增加元素list1.pop(-1) #删除指定index的元素 默认是-1 return被删除元素的值 list1.remove('!') 阅读全文
posted @ 2019-03-11 16:08 一觉不觉已千年 阅读(301) 评论(0) 推荐(0) 编辑