摘要: 1.这是爬虫大作业的csv数据表,共计2万条数据左右。 2、导入数据表并且去掉头部的第一条数据,然后查看签名10条数据 3、再进行预处理,创建一个脚本文件pre_deal.sh,对数据表中的地址进行省份转换: 4、转换后的txt表,可以看见有中文的地区名 5、开启Hadoop和hive 6、在hdf 阅读全文
posted @ 2019-06-17 09:00 xbk6 阅读(171) 评论(0) 推荐(0) 编辑
摘要: HDFS在Hadoop上的作用、工作原理和工作过程: 作用:HDFS 天生是为大规模数据存储与计算服务的,而对大规模数据的处理目前还有没比较稳妥的解决方案。 HDFS 将将要存储的大文件进行分割,分割到既定的存储块(Block)中进行了存储,并通过本地设定的任务节点进行预处理,从而解决对大文件存储与 阅读全文
posted @ 2019-06-03 17:45 xbk6 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”目录下创建一个 阅读全文
posted @ 2019-05-27 15:26 xbk6 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 1、简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商;国内外Hadoop应用的典型案例。Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Goog 阅读全文
posted @ 2019-05-06 10:23 xbk6 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 一.把爬取的内容保存取MySQL数据库 代码如下: 接着我们将获取到的数据保存到本地,并转化为Excel,方便到时候生成云词。 以下是爬取爬取猫眼电影网站上的评论保存到Excel文件里,如下图: 将采集到的数据可视化,采用pyecharts,按照地理位置制作了毒液观众群的分布图。代码如下: 从可视化 阅读全文
posted @ 2019-04-28 09:09 xbk6 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 1.从新闻url获取新闻详情: 字典,anews 代码如下: 运行效果: 2.从列表页的url获取新闻url:列表append(字典) alist 代码如下: 运行效果: 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页,代 阅读全文
posted @ 2019-04-11 22:16 xbk6 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newClick(用字符串处理,或正则表达式) int() 主要 阅读全文
posted @ 2019-04-02 11:15 xbk6 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 1、简单说明爬虫原理 请求网站并提取数据的自动化程序 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器的主要功能就是向服务器发出请求,在浏览器窗口中展示您想要访问的网络资源。 2).使用 requests 库抓取网站数据 3).了解网页 写一个简单的html文件,包含多个标签,类,id 阅读全文
posted @ 2019-03-25 16:39 xbk6 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 红楼梦高频词: 红楼梦整篇小说: 成功排序出高频词: 生成词云如下: 阅读全文
posted @ 2019-03-18 16:18 xbk6 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 列表,元组,字典,集合分别如何增删改查及遍历。 列表是有序的,我们可以用之前学过的for循环遍历它,然后输出列表中的每一个值。元组属于特殊的列表 S=(,,,),其内部元素不可以编辑,只可以S[0]方式查询。字典是python中唯一的映射类型,采用键值对的形式存储数据。 总结列表,元组,字典,集合的 阅读全文
posted @ 2019-03-12 09:01 xbk6 阅读(222) 评论(0) 推荐(0) 编辑