08 2020 档案
大数据Zookeeper
摘要:一、基础介绍 1.Zookeeper概念 Zookeeper是一个分布式的,开放源代码的分布式应用程序协调服务,它提供了简单的功能,例如分布式同步,配置管理,集群管理,命名惯例,队列管理。Zookeeper是集群的管理者,监视着集群中各个节点的状态,根据节点提供的反馈进行操作。 2.Zookeepe 阅读全文
posted @ 2020-08-24 22:17 阡陌祁画 阅读(152) 评论(0) 推荐(0)
Spark基础学习
摘要:学习视频 https://www.bilibili.com/video/BV1d441127uU?from=search&seid=528108915857989527 一、基础简介 1.生态系统 2.Spark生态系统组件的应用场景 3.Spark运行架构 二、基本流程图和特点 1.为应用构建起基 阅读全文
posted @ 2020-08-22 13:03 阡陌祁画 阅读(149) 评论(0) 推荐(0)
数据仓库Hive基础学习
摘要:学习视频 https://www.bilibili.com/video/av66130637?p=2 一、基础介绍 Hive本身并不支持数据存储和处理。而是提供了一种编程的语言 1.Hive两个方面特性 ·采用批处理方式处理海量数 Hive会把HIveQL语句转换成MapReduce任务进行运行 数 阅读全文
posted @ 2020-08-21 20:42 阡陌祁画 阅读(219) 评论(0) 推荐(0)
学习总结
摘要:所学时间 7个小时 博客量 3篇 代码量 1000行 所学知识 HBase基础编程、NoSQL和MapReduce基础知识 阅读全文
posted @ 2020-08-19 18:48 阡陌祁画 阅读(63) 评论(0) 推荐(0)
MapReduce基础介绍
摘要:视频学习 https://www.bilibili.com/video/BV1Q441127SH?from=search&seid=16519722762646066419 详细编程实践 http://dblab.xmu.edu.cn 一、基础介绍 1.MapReduce是一种分布并行编程框架 2. 阅读全文
posted @ 2020-08-19 18:41 阡陌祁画 阅读(157) 评论(0) 推荐(0)
NoSQL数据库基础概述
摘要:1.NoSQL数据库特点 优点: ·灵活的可扩展性:具有非常好的水平可扩展性,可通过节点方式扩大性能 ·灵活的数据模型:可以存储非常多类型的数据 ·和云计算的紧密结合 ·具有非常好的可用性:能够在短时间内迅速返回所需的结果 不足: ·未构建面向复杂查询的索引查询性能 ·不能实现完整性约束 ·没有成熟 阅读全文
posted @ 2020-08-18 20:56 阡陌祁画 阅读(223) 评论(0) 推荐(0)
HBase编程实践
摘要:视频学习:(HBase安装和配置,编程实践) https://www.bilibili.com/video/BV1r441127Pw?p=6 一、要求 二、代码编写 Configuration是对信息管理的一个类 Connection是对连接进行管理的一个类 Admin对数据库进行管理的一个类用于管 阅读全文
posted @ 2020-08-16 11:17 阡陌祁画 阅读(156) 评论(0) 推荐(0)
学习总结
摘要:所学的时间 8个小时 代码量 600行 博客量 4篇 学到的知识 大数据Hadoop、HDFS、HBase基础学习 阅读全文
posted @ 2020-08-14 20:58 阡陌祁画 阅读(52) 评论(0) 推荐(0)
HBase简要介绍
摘要:学习视频: https://www.bilibili.com/video/BV1r441127Pw?from=search&seid=5789167709889426875 一、HBase的概念简介 1.概念 分布式数据库:可以用来存储非常结构化和半结构化的松散数据 2.元素 行键、列族、列限定符、 阅读全文
posted @ 2020-08-13 21:34 阡陌祁画 阅读(402) 评论(0) 推荐(0)
分布式文件系统HDFS
摘要:学习视频: https://www.bilibili.com/video/BV1r441127QE?from=search&seid=8254268135953422887 一、HDFS的相关概念 1.块:整个HDFS当中最核心的概念 2.两大组件 名称节点:整个HDFS集群的管家(数据目录) 数据 阅读全文
posted @ 2020-08-11 22:54 阡陌祁画 阅读(136) 评论(0) 推荐(0)
Hadoop基础安装和使用
摘要:视频学习: https://www.bilibili.com/video/BV1z441127qT?p=1 一、应用现状 一、项目结构 二、安装和使用 安装教程:https://www.bilibili.com/video/BV1z441127qT?p=5 阅读全文
posted @ 2020-08-10 23:11 阡陌祁画 阅读(176) 评论(0) 推荐(0)
大数据的学习基础
摘要:学习路线概括: https://www.php.cn/faq/418462.html 安装虚拟机VMVirtualBox: https://www.virtualbox.org/wiki/Downloads 视频技术学习: 大数据技术原理与应用 虚拟机配置所应用的环境 一、大数据 1.大数据对于系统 阅读全文
posted @ 2020-08-09 21:32 阡陌祁画 阅读(151) 评论(0) 推荐(0)
学习总结
摘要:所学时间 12小时 代码量 1000行 博客量 5篇 所学到的知识 (urllib、BeautifulSoup、正则表达式)->爬虫 阅读全文
posted @ 2020-08-07 23:18 阡陌祁画 阅读(67) 评论(0) 推荐(0)
Python-爬取豆瓣电影信息并存到mysql
摘要:一、基本流程 继续之前的博客,进行最后的完工:https://www.cnblogs.com/hhjing/p/13419881.html 二、程序源码 import urllib.request,urllib.error #指定URL获取网页数据 import bs4 #网页解析数据获取 impo 阅读全文
posted @ 2020-08-07 23:05 阡陌祁画 阅读(556) 评论(0) 推荐(0)
正则表达式-爬虫获取豆瓣电影超链接
摘要:视频学习资料: https://www.bilibili.com/video/BV12E411A7ZQ?p=22 常用正则表达式知识总结与应用: 原文地址:https://www.cnblogs.com/zxin/archive/2013/01/26/2877765.html 一、正则表达式简单解析 阅读全文
posted @ 2020-08-06 12:22 阡陌祁画 阅读(456) 评论(0) 推荐(0)
BeautifulSoup相关学习
摘要:BeautifulSoup库基础及一般元素提取方法: https://www.cnblogs.com/hanmk/p/8724162.html BeautifulSoup库使用详情: https://blog.csdn.net/z714405489/article/details/83245087 阅读全文
posted @ 2020-08-05 16:30 阡陌祁画 阅读(152) 评论(0) 推荐(0)
python爬虫回顾与总结
摘要:网络爬虫(网络蜘蛛) 相关学习资源:https://www.bilibili.com/video/BV12E411A7ZQ?p=16 一、爬虫的介绍 网络爬虫,是一种按照一定规律。自动获取互联网信息的程序或者脚本。根据用户需求定向抓取相关网页并分析。 二、爬虫的本质 模拟浏览器打开网页,获取网页中我 阅读全文
posted @ 2020-08-04 21:48 阡陌祁画 阅读(695) 评论(0) 推荐(0)
补充urllib
摘要:补充知识:方便post进行测试的网址(测试post请求)http://httpbin.org/ 一、http://httpbin.org/使用步骤: 1.找到要测试的方法 2.try it out进行测试 3.发送请求 4.可得到返回信息,然后与代码运行结果进行对比 二、源码模拟浏览器运行 1.相关 阅读全文
posted @ 2020-08-03 20:39 阡陌祁画 阅读(110) 评论(0) 推荐(0)