上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页
摘要: 数据分析的主要步骤为: 1.爬取的数据导入hive数据库 2.在hive数据库中,计算 获取数据 ,成表 3.利用sqoop将hi ve中的表 转存为 mysql表就可以使用了 最后结果为: 信息展示:调用echarts 代码如下: <%@page import="java.util.List"%> 阅读全文
posted @ 2020-02-05 12:54 fsdx 阅读(1296) 评论(0) 推荐(0) 编辑
摘要: 信件列表_首都之窗_北京市人民政府门户网站(http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow)的 页面 打开 审查元素 会发现 页标的href 隐藏在 onclick中 但是没有办法读取 我们就利用geckodive 阅读全文
posted @ 2020-02-04 23:38 fsdx 阅读(377) 评论(0) 推荐(1) 编辑
摘要: 在进行第一步运用webmagic爬取 目前遇到的困难:1.利用表单的请求进行分页的数据:2.利用onclick隐藏的url 阅读全文
posted @ 2020-02-03 20:19 fsdx 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 今天完成了spark在虚拟机上的部署,可以通过dos命令进行编程 在eclipse+Maven+Scala的部署上 遇到困难 在创建maven project时 总是can't access to 。。。创建失败 阅读全文
posted @ 2020-02-02 22:12 fsdx 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 1.Spark 是类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算. 是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop, Spark 运算比 Hadoop 的 MapReduce 框架快的原因:是因为 Hadoop 在一次 MapReduce 运 阅读全文
posted @ 2020-02-01 20:16 fsdx 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 昨天通过学习了解了爬虫的简单架构:今天我们就将他进行了具体的练习-爬取 百科词条 首先环境是eclipse+python3.8 先看一下具体的框架: url_manager:url管理器;html_downloader:网页下载器;html_parser:网页解析器;html_outputer:获取 阅读全文
posted @ 2020-01-10 18:25 fsdx 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 爬虫:一段自动抓取互联网信息的程序。 从一个url出发访问与之关联的url 来获取目标 ;其价值在于:互联网数据,为我所用! 一个完整的爬虫架构:爬虫调度端{ url管理器,网页下载器,网页解析器} 下面是两个测试 : 关于urllib2: # -*- coding:utf8 -*- '''Crea 阅读全文
posted @ 2020-01-09 21:19 fsdx 阅读(128) 评论(0) 推荐(0) 编辑
摘要: 1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 2、数据处理: 3、数据可视化:将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。 今天 数据清洗完成 存入hive数据库 在数据处理 阶段没能很顺利进行下去 阅读全文
posted @ 2019-11-14 20:28 fsdx 阅读(99) 评论(0) 推荐(0) 编辑
摘要: 本周将虚拟机 hadoop eclipse 安装到位并且按照指导在虚拟机 eclipse运行 了第一个项目 阅读全文
posted @ 2019-07-28 00:13 fsdx 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 在学校待了将近一周后,同学们走的走,工作的工作。终于我也耐不住寂寞 来到了北京这个既有压力又有希望的地方,开始了我白天工作晚上玩乐的worktime 上班第一天,交流障碍的压力扑面而来 。英语的磕磕绊绊让我无地自容。我决定用心学习英语 下学期努力过完六级。 这一周白天工作 晚上 熟悉环境+立flag 阅读全文
posted @ 2019-07-21 23:56 fsdx 阅读(100) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页