一觉不觉已千年

2019年6月14日

摘要： 1导入数据表并且去掉头部的第一条数据，然后查看签名5条数据 2 预处理，创建一个脚本文件pre_deal.sh，对数据表中的地址进行省份转换： 3转换后的txt表，可以看见有中文的地区名 4 开启Hadoop，hive 5 在hdfs上创建一个bigdatacase/dataset文件夹 6将之前转阅读全文

posted @ 2019-06-14 18:14 一觉不觉已千年阅读(258) 评论(0) 推荐(0)

2019年6月3日

分布式并行计算MapReduce

摘要： 1.阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS功能：是Hadoop项目的核心子项目。是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上 pc server。具有以下的功能：（1）高容错性：阅读全文

posted @ 2019-06-03 16:42 一觉不觉已千年阅读(275) 评论(0) 推荐(0)

2019年5月27日

分布式文件系统HDFS 练习

摘要： 1.目录操作在HDFS中为hadoop用户创建一个用户目录（hadoop用户）在用户目录下创建一个input目录删除HDFS根目录中的“input”目录 2.文件操作使用vim编辑器，在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件：姓名.txt 在该文件里面可以随阅读全文

posted @ 2019-05-27 15:06 一觉不觉已千年阅读(298) 评论(0) 推荐(0)

2019年5月6日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要：一.Hadoop 产生背景 • 1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加， • 遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 • 2. 2003年、2004年谷歌发表的两篇阅读全文

posted @ 2019-05-06 10:30 一觉不觉已千年阅读(159) 评论(0) 推荐(0)

2019年4月22日

爬虫综合大作业

摘要：一.把爬取的内容保存取MySQL数据库：二.爬虫综合大作业：爬虫目标：关于《人中之龙》这首音乐在网页云音乐的评论人的情况。以上是爬取网易云音乐的关于《人中之龙》这首音乐评论人员的评论时间，评论人的地区，评论内容等，保存到文件里，如下图：总共2000来条评论数据。以下是对评论用户所在的省份进阅读全文

posted @ 2019-04-22 16:20 一觉不觉已千年阅读(544) 评论(0) 推荐(0)

2019年4月8日

爬取全部的校园新闻

摘要： 1.从新闻url获取新闻详情：字典,anews 2.从列表页的url获取新闻url：列表append(字典) alist 3.生成所页列表页的url并获取全部新闻：列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time i 阅读全文

posted @ 2019-04-08 15:25 一觉不觉已千年阅读(233) 评论(0) 推荐(0)

2019年4月1日

获取一篇新闻的全部信息

摘要：新闻的链接：http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0331/11110.html 阅读全文

posted @ 2019-04-01 15:37 一觉不觉已千年阅读(177) 评论(0) 推荐(0)

2019年3月25日

爬虫原理作业

摘要： 1.爬虫原理: 向网站发起请求，获取资源后分析并提取有用数据的程序；从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。 2.爬虫开发过程：（1）、浏览器工作原理：浏览器工作原阅读全文

posted @ 2019-03-25 15:57 一觉不觉已千年阅读(165) 评论(0) 推荐(0)

2019年3月18日

中文词频统计

摘要：以下是三国演义的词库，将其引入：要分析的文本，《三国演义》：要过滤的词语：运行结果图：因为运行wordcloud老是出现下面错误，就用网上的在线词云。阅读全文

posted @ 2019-03-18 15:28 一觉不觉已千年阅读(237) 评论(0) 推荐(0)

2019年3月11日

复合数据类型

摘要：列表，元组，字典，集合增删改查及遍历： #列表的增删改查遍历list1 = list('this is a list')list1.append('!') #末尾增加元素list1.pop(-1) #删除指定index的元素默认是-1 return被删除元素的值 list1.remove('!') 阅读全文

posted @ 2019-03-11 16:08 一觉不觉已千年阅读(316) 评论(0) 推荐(0)

星雪凄天银河垂

公告