fsdx

2020年2月5日

摘要：数据分析的主要步骤为： 1.爬取的数据导入hive数据库 2.在hive数据库中，计算获取数据，成表 3.利用sqoop将hi ve中的表转存为 mysql表就可以使用了最后结果为：信息展示：调用echarts 代码如下： <%@page import="java.util.List"%> 阅读全文

posted @ 2020-02-05 12:54 fsdx 阅读(1296) 评论(0) 推荐(0) 编辑

2020年2月4日

Day6-爬取数据 selenium+geckodiver模拟页面点击onclick

摘要：信件列表_首都之窗_北京市人民政府门户网站（http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow）的页面打开审查元素会发现页标的href 隐藏在 onclick中但是没有办法读取我们就利用geckodive 阅读全文

posted @ 2020-02-04 23:38 fsdx 阅读(377) 评论(0) 推荐(1) 编辑

2020年2月3日

Day5-北京市政信件分析实例

摘要：在进行第一步运用webmagic爬取目前遇到的困难：1.利用表单的请求进行分页的数据：2.利用onclick隐藏的url 阅读全文

posted @ 2020-02-03 20:19 fsdx 阅读(115) 评论(0) 推荐(0) 编辑

2020年2月2日

Day4-Spark安装

摘要：今天完成了spark在虚拟机上的部署，可以通过dos命令进行编程在eclipse+Maven+Scala的部署上遇到困难在创建maven project时总是can't access to 。。。创建失败阅读全文

posted @ 2020-02-02 22:12 fsdx 阅读(94) 评论(0) 推荐(0) 编辑

2020年2月1日

Day3-spark基本认识

摘要： 1.Spark 是类Hadoop MapReduce的通用并行框架, 专门用于大数据量下的迭代式计算. 是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop, Spark 运算比 Hadoop 的 MapReduce 框架快的原因：是因为 Hadoop 在一次 MapReduce 运阅读全文

posted @ 2020-02-01 20:16 fsdx 阅读(108) 评论(0) 推荐(0) 编辑

2020年1月10日

Day2-Python爬虫小练爬取百科词条

摘要：昨天通过学习了解了爬虫的简单架构：今天我们就将他进行了具体的练习-爬取百科词条首先环境是eclipse+python3.8 先看一下具体的框架： url_manager:url管理器；html_downloader:网页下载器；html_parser:网页解析器；html_outputer:获取阅读全文

posted @ 2020-01-10 18:25 fsdx 阅读(279) 评论(0) 推荐(0) 编辑

2020年1月9日

Day1-python轻量级爬虫

摘要：爬虫：一段自动抓取互联网信息的程序。从一个url出发访问与之关联的url 来获取目标；其价值在于：互联网数据，为我所用！一个完整的爬虫架构：爬虫调度端{ url管理器，网页下载器，网页解析器} 下面是两个测试：关于urllib2： # -*- coding:utf8 -*- '''Crea 阅读全文

posted @ 2020-01-09 21:19 fsdx 阅读(128) 评论(0) 推荐(0) 编辑

2019年11月14日

大数据处理课堂测试1

摘要： 1、数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。 2、数据处理： 3、数据可视化：将统计结果倒入MySql数据库中，通过图形化展示的方式展现出来。今天数据清洗完成存入hive数据库在数据处理阶段没能很顺利进行下去阅读全文

posted @ 2019-11-14 20:28 fsdx 阅读(99) 评论(0) 推荐(0) 编辑

2019年7月28日

周记7-28

摘要：本周将虚拟机 hadoop eclipse 安装到位并且按照指导在虚拟机 eclipse运行了第一个项目阅读全文

posted @ 2019-07-28 00:13 fsdx 阅读(91) 评论(0) 推荐(0) 编辑

2019年7月21日

周记7-21

摘要：在学校待了将近一周后，同学们走的走，工作的工作。终于我也耐不住寂寞来到了北京这个既有压力又有希望的地方，开始了我白天工作晚上玩乐的worktime 上班第一天，交流障碍的压力扑面而来。英语的磕磕绊绊让我无地自容。我决定用心学习英语下学期努力过完六级。这一周白天工作晚上熟悉环境+立flag 阅读全文

posted @ 2019-07-21 23:56 fsdx 阅读(100) 评论(0) 推荐(0) 编辑

公告