xbk6 - 博客园

2019年6月17日

摘要： 1.这是爬虫大作业的csv数据表，共计2万条数据左右。 2、导入数据表并且去掉头部的第一条数据，然后查看签名10条数据 3、再进行预处理，创建一个脚本文件pre_deal.sh，对数据表中的地址进行省份转换： 4、转换后的txt表，可以看见有中文的地区名 5、开启Hadoop和hive 6、在hdf 阅读全文

posted @ 2019-06-17 09:00 xbk6 阅读(171) 评论(0) 推荐(0) 编辑

2019年6月3日

分布式并行计算MapReduce

摘要： HDFS在Hadoop上的作用、工作原理和工作过程：作用：HDFS 天生是为大规模数据存储与计算服务的，而对大规模数据的处理目前还有没比较稳妥的解决方案。 HDFS 将将要存储的大文件进行分割，分割到既定的存储块(Block)中进行了存储，并通过本地设定的任务节点进行预处理，从而解决对大文件存储与阅读全文

posted @ 2019-06-03 17:45 xbk6 阅读(150) 评论(0) 推荐(0) 编辑

2019年5月27日

分布式文件系统HDFS 练习

摘要： 1.目录操作在HDFS中为hadoop用户创建一个用户目录（hadoop用户）在用户目录下创建一个input目录在HDFS的根目录下创建一个名称为input的目录删除HDFS根目录中的“input”目录使用vim编辑器，在本地Linux文件系统的“/home/hadoop/”目录下创建一个阅读全文

posted @ 2019-05-27 15:26 xbk6 阅读(102) 评论(0) 推荐(0) 编辑

2019年5月6日

安装关系型数据库MySQL 安装大数据处理框架Hadoop

摘要： 1、简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Goog 阅读全文

posted @ 2019-05-06 10:23 xbk6 阅读(95) 评论(0) 推荐(0) 编辑

2019年4月28日

爬虫综合大作业

摘要：一.把爬取的内容保存取MySQL数据库代码如下：接着我们将获取到的数据保存到本地，并转化为Excel，方便到时候生成云词。以下是爬取爬取猫眼电影网站上的评论保存到Excel文件里，如下图：将采集到的数据可视化，采用pyecharts，按照地理位置制作了毒液观众群的分布图。代码如下：从可视化阅读全文

posted @ 2019-04-28 09:09 xbk6 阅读(295) 评论(0) 推荐(0) 编辑

2019年4月11日

爬取全部的校园新闻

摘要： 1.从新闻url获取新闻详情：字典,anews 代码如下：运行效果： 2.从列表页的url获取新闻url：列表append(字典) alist 代码如下：运行效果： 3.生成所页列表页的url并获取全部新闻：列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页，代阅读全文

posted @ 2019-04-11 22:16 xbk6 阅读(130) 评论(0) 推荐(0) 编辑

2019年4月2日

获取一篇新闻的全部信息

摘要：标题、作者、发布单位、审核、来源发布时间:转换成datetime类型点击： newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newClick(用字符串处理，或正则表达式) int() 主要阅读全文

posted @ 2019-04-02 11:15 xbk6 阅读(156) 评论(0) 推荐(0) 编辑

2019年3月25日

理解爬虫原理

摘要： 1、简单说明爬虫原理请求网站并提取数据的自动化程序 2. 理解爬虫开发过程 1).简要说明浏览器工作原理；浏览器的主要功能就是向服务器发出请求，在浏览器窗口中展示您想要访问的网络资源。 2).使用 requests 库抓取网站数据 3).了解网页写一个简单的html文件，包含多个标签，类，id 阅读全文

posted @ 2019-03-25 16:39 xbk6 阅读(149) 评论(0) 推荐(0) 编辑

2019年3月18日

中文词频统计

摘要：红楼梦高频词：红楼梦整篇小说：成功排序出高频词：生成词云如下：阅读全文

posted @ 2019-03-18 16:18 xbk6 阅读(440) 评论(0) 推荐(0) 编辑

2019年3月12日

复合数据类型

摘要：列表，元组，字典，集合分别如何增删改查及遍历。列表是有序的，我们可以用之前学过的for循环遍历它，然后输出列表中的每一个值。元组属于特殊的列表 S=(,,,)，其内部元素不可以编辑，只可以S[0]方式查询。字典是python中唯一的映射类型，采用键值对的形式存储数据。总结列表，元组，字典，集合的阅读全文

posted @ 2019-03-12 09:01 xbk6 阅读(222) 评论(0) 推荐(0) 编辑

公告