摘要: 一、什么是Hive? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱 阅读全文
posted @ 2018-11-23 21:29 wangchuanli 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 一、我的小书屋 这个爬虫能爬取 http://mebook.cc/ 网站的电子书下载路径。(只是小练习,侵删) 爬取网站使用了 BeautifulSoup 进行解析, 二、爬取源码 1 #!/usr/bin/python 2 # -*- coding: UTF-8 -*- 3 import re 4 阅读全文
posted @ 2018-11-23 20:40 wangchuanli 阅读(607) 评论(0) 推荐(0) 编辑