摘要: Snakebite是由Spotify创建的python包, 它提供了python客户端库,运行以编程方式从Python应用程序访问HDFS。客户端库使用 protobuf 消息直接与 NameNode 通信。Snakebite还包括一个基于客户端库的 HDFS 的命令行界面。 本节介绍如何安装和配置 阅读全文
posted @ 2019-03-10 19:09 blue-shadow 阅读(1225) 评论(0) 推荐(0) 编辑
摘要: 前言 对于数据库需要搭配必要的管理的工具,以达到对数据库运行状态的监控,对数据库进行冗余备份,总之依靠工具能够更好的管理数据库。数据mongodb数据库是存储着爬取招聘数据,其中数据共计有120万分文档。 正文 常用工具说明 对于安装完mongodb后,已经附带了常用的管理开发工具了,打开mongo 阅读全文
posted @ 2019-03-08 18:37 blue-shadow 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 主要内容 使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。 对于百度搜索的数据和智联招聘的页面数据是截然不同的方式,百度主要是动态的生成数据而在智联招聘上基本是静态的数据,所以这两个是具有一定的 阅读全文
posted @ 2019-03-08 18:31 blue-shadow 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 抓取智联招聘和百度搜索的数据并进行分析,使用visual studio编写代码mongodb和SQLServer存储数据。使用scrapy框架结合 selenium爬取百度搜索数据,并进行简要的数据的分析!! 爬取前的页面分析: 打开百度搜索页面,并查看网页源代码,问题便出现,无法查看到页面源代码, 阅读全文
posted @ 2019-03-07 18:29 blue-shadow 阅读(2608) 评论(0) 推荐(0) 编辑
摘要: HDFS命令 HDFS命令大全 Usage: hdfs [--config confdir] COMMAND where COMMAND is one of: 常用命令 对于HDFS dfs命令,针对在shell命令在大部分可以使用,只要在相应的命令前加 -。使用时,在Hive Cli可以省略had 阅读全文
posted @ 2019-03-07 18:09 blue-shadow 阅读(674) 评论(0) 推荐(0) 编辑