上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页
摘要: 一、DML-Load加载数据 1.1 背景 回想一下,当在Hive中创建好表之后,默认就会在HDFS上创建一个与之对应的文件夹,默认路径是由参数hive.metastore.warehouse.dir控制,默认值是**/user/hive/warehouse**。 要想让hive的表和结构化的数据文 阅读全文
posted @ 2022-01-11 22:21 王陸 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 一、数据定义语言(DDL)概述 1.1 DDL语法的作用 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心 阅读全文
posted @ 2022-01-10 16:01 王陸 阅读(665) 评论(0) 推荐(0) 编辑
摘要: 一、Hive 基本概念 1.1 什么是 Hive Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文 阅读全文
posted @ 2022-01-09 14:26 王陸 阅读(710) 评论(0) 推荐(0) 编辑
摘要: 一、数据仓库概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身 阅读全文
posted @ 2022-01-08 19:21 王陸 阅读(411) 评论(0) 推荐(0) 编辑
摘要: 第一章 需求分析 微博内容的浏览,数据库表设计 用户社交体现:关注用户,取关用户 拉取关注的人的微博内容 第二章 数据库设计 设计成三张表微博内容表、用户关系表和微博收件箱表。 微博内容表结构: | 方法名 | creatTableeContent | | | | | Table Name | we 阅读全文
posted @ 2022-01-06 20:35 王陸 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 第一章 高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 HMaster 的高可 阅读全文
posted @ 2022-01-05 17:13 王陸 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 第一章 HBase 快速入门 1.1 HBase 安装部署 1.1.1 Zookeeper 正常部署 首先保证 Zookeeper 集群的正常部署,并启动之: https://www.cnblogs.com/wkfvawl/p/15539847.html#scroller-16 1.1.2 Hado 阅读全文
posted @ 2022-01-05 15:53 王陸 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 第一章 事务 1.1 事务定义 Redis 事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中,不会被其他客户端发送来的命令请求所打断。 事务可以一次执行多个命令,本质是一组命令的集合。一个事务中的所有命令都会序列化,按顺序地串行化执行而不会被其他命令插入,不许加 阅读全文
posted @ 2022-01-01 09:42 王陸 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 好久没有写感悟类的文章了,本来考完研就打算写一篇文章,对大学四年做一个“复盘”的,但复试被调剂了,难受了很久,之后也实在没什么由头写。在岁末年初前夕,我终于不打算再拖沓了,准备好好整理一下,做个纪念。一方面,审问一下自己的初心,整理一下思绪;另一方面,思索未来的方向,慕然回首时,不回因碌碌无为而羞愧 阅读全文
posted @ 2021-12-31 08:58 王陸 阅读(4758) 评论(54) 推荐(37) 编辑
摘要: 第一章 Jedis 测试 jedis是redis的java版本的客户端实现。 1.1.Jedis所需要的jar包 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.2.0</ 阅读全文
posted @ 2021-12-29 19:22 王陸 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 一、集合简介 1)Scala 的集合有三大类:序列 Seq、集 Set、映射 Map,所有的集合都扩展自 Iterable特质。 2)对于几乎所有的集合类,Scala 都同时提供了可变和不可变的版本,分别位于以下两个包 不可变集合:scala.collection.immutable 可变集合: s 阅读全文
posted @ 2021-12-28 17:52 王陸 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 第一章 NoSQL数据库简介 1.1 技术发展 java相关技术的分类 1、解决功能性的问题:Java、Jsp、RDBMS、Tomcat、HTML、Linux、JDBC、SVN 2、解决扩展性的问题:Struts、Spring、SpringMVC、Hibernate、Mybatis 3、解决性能的问 阅读全文
posted @ 2021-12-27 16:36 王陸 阅读(198) 评论(0) 推荐(2) 编辑
摘要: 一、SpringBoot 概述 1.1 SpringBoot 概念 SpringBoot提供了一种快速使用Spring的方式,基于约定优于配置的思想,可以让开发人员不必在配置与逻辑业务之间进行思维的切换,全身心的投入到逻辑业务的代码编写中,从而大大提高了开发的效率,一定程度上缩短了项目周期。 201 阅读全文
posted @ 2021-12-26 21:20 王陸 阅读(1043) 评论(0) 推荐(1) 编辑
摘要: Scala 的面向对象思想和 Java 的面向对象思想和概念是一致的。 Scala 中语法和 Java 不同,补充了更多的功能。 零、相关概念 什么是面向对象? 面向对象是一种编程思想, 它是基于面向过程的, 强调的是以对象为基础完成各种操作. 面向对象的三大思想特点是什么? 1. 更符合人们的思考 阅读全文
posted @ 2021-12-22 15:23 王陸 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 一、Scala 入门 1.1 概述 Scala(斯嘎拉)这个名字来源于"Scalable Language(可伸缩的语言)", 它是一门基于JVM的多范式编程语言, 通俗的说: Scala是一种运行在JVM上的函数式的面向对象语言。之所以这样命名,是因为它的设计目标是: 随着用户的需求一起成长。Sc 阅读全文
posted @ 2021-12-22 14:38 王陸 阅读(346) 评论(0) 推荐(0) 编辑
摘要: 1、对比分析计算机网络、分布式系统、主机系统的差异。 差异: 计算机网络是由物理上独立的多台自主计算机的互联系统;用户必须指定网络中哪一台计算机完成什么样的操作。 分布式系统由一个操作系统统一管理,对用户来说,具有高度的整体性和透明性,是虚拟计算机,可能是多台计算机的有机组合;用户向虚拟系统递交一个 阅读全文
posted @ 2021-12-18 20:18 王陸 阅读(1764) 评论(0) 推荐(1) 编辑
摘要: 第一章 绪论 1、19世纪末,火箭运动的基本数学方程,并且从理论上证明,用多级火箭可以推动一定的载荷进入空间的是前苏联火箭之父——齐奥尔科夫斯基。 2、开展了人类第一次液体火箭飞行试验的是美国的戈达德博士。 3、领导设计了世界上最大的火箭——土星五号火箭是冯·布劳恩 4、1957年10月4日,前苏联 阅读全文
posted @ 2021-12-16 11:43 王陸 阅读(639) 评论(0) 推荐(0) 编辑
摘要: 第一章 集中式体系结构 集中式结构就是,由一台或多台服务器组成中央服务器,系统内的所有数据都存储在中央服务器中,系统内所有的业务也均先由中央服务器处理。多个节点服务器与中央服务器连接,并将自己的信息汇报给中央服务器,由中央服务器统一进行资源和任务调度:中央服务器根据这些信息,将任务下达给节点服务器; 阅读全文
posted @ 2021-12-11 14:54 王陸 阅读(694) 评论(0) 推荐(0) 编辑
摘要: 第一章 HBase 简介 1.1 HBase 定义 Apache HBase™ 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。 在大数据场景中,除了直接以文件形式保存的数据外,还有大量结构化和半结构化的数据,这些数据通常需要支持更新操作,比如随机插入和删除,这使得分布式文件 阅读全文
posted @ 2021-12-03 16:44 王陸 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 第一章 分布式互斥 在分布式系统里,这种排他性的资源访问方式,叫作分布式互斥(Distributed Mutual Exclusion),而这种被互斥访问的共享资源就叫作临界资源(Critical Resource)。 如何才能让分布式系统里的程序互斥地访问临界资源? 1.1 集中式算法 引入一个协 阅读全文
posted @ 2021-12-02 16:11 王陸 阅读(1466) 评论(0) 推荐(0) 编辑
摘要: 一、分布式核心技术知识体系 首先,按照业务的架构层次栈,我自底向上按照资源、通信、数据与计算的维度,梳理出了 4 个技术层次:分布式资源池化、分布式通信、分布式数据存储与管理、分布式计算。 这样的划分符合业务架构设计的一般规律,即“在一定资源上,进行一定通信,通过一定计算,完成一定数据的加工和处理, 阅读全文
posted @ 2021-12-01 20:21 王陸 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 网络层是为主机之间提供逻辑通信;传输层为应用进程之间提供端到端的逻辑通信。 逻辑通信”的意思是“好像是这样通信,但事实上并非真的这样通信”。从IP层来说,通信的两端是两台主机。但“两台主机之间的通信”这种说法还不够清楚。严格地讲,两台主机进行通信就是两台主机中的应用进程互相通信。从运输层的角度看,通 阅读全文
posted @ 2021-12-01 19:03 王陸 阅读(693) 评论(3) 推荐(0) 编辑
摘要: 第一章 Flume 事务 Source向Channel推,Sink从Channel拉。 第二章 Flume Agent 内部原理 重要组件: ChannelSelector ChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 **Rep 阅读全文
posted @ 2021-11-28 15:24 王陸 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 第一章 集成 Flume Flume 是一个在大数据开发中非常常用的组件。可以用于 Kafka 的生产者,也可以用于Flume 的消费者。 1.1 Flume 生产者 (1)启动 kafka 集群 [atguigu@hadoop102 ~]$ zk.sh start [atguigu@hadoop1 阅读全文
posted @ 2021-11-26 16:54 王陸 阅读(240) 评论(0) 推荐(0) 编辑
摘要: 第一章 Flume 概述 日志收集面临的问题: 数据源种类繁多 数据源是物理分布的 流式,不间断产生 对可靠性有一定要求 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume基于流式架构,灵活简单。 Flume 采用了 阅读全文
posted @ 2021-11-25 17:06 王陸 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 第一章 网络层概述 网络层向上只提供简单灵活的、无连接的、尽最大努力交付的数据报服务。网络在发送分组时不需要先建立连接。每一个分组(即 IP 数据报)独立发送,与其前后的分组无关(不进行编号)。网络层不提供服务质量的承诺。即所传送的分组可能出错、丢失、重复和失序(不按序到达终点),当然也不保证分组传 阅读全文
posted @ 2021-11-21 12:24 王陸 阅读(339) 评论(0) 推荐(0) 编辑
摘要: 第一章 Kafka 概述 1.1 定义 为了降低数据生产者和消费者之间的耦合性、平衡两者处理能力的不对等,消息队列出现了。 消息队列是位于生产者和消费者之间的“中间件”,它解除了生产者和消费者的直接依赖关系,使得软件架构更容易扩展和伸缩;它能够缓冲生产者产生的数据,防止消费者无法及时处理生产者产生的 阅读全文
posted @ 2021-11-19 20:34 王陸 阅读(669) 评论(1) 推荐(1) 编辑
摘要: 之前讲的synchronized底层Monitor主要关注的是访问共享变量时,保证临界区代码的原子性 。 Java并发编程——共享模型的线程安全问题 Java并发编程——共享模型之管程 下面进一步深入学习共享变量在多线程间的【可见性】问题与多条指令执行时的【有序性】问题。 一、 Java 内存模型 阅读全文
posted @ 2021-11-18 10:42 王陸 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 第一章 Yarn资源调度器 思考: 1)如何管理集群资源? 2)如何给任务合理分配资源? Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 1.1 Yarn基础架构 YARN主要由Res 阅读全文
posted @ 2021-11-17 12:39 王陸 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 一、定义与公式 线性回归(Linear regression)是一种线性模型,利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 具体来说,利用线性回归模型,可以从一组输入变量x的线性组合中,计算输出变量y。 只有一个自变量的情况称为单变量回归,大于一 阅读全文
posted @ 2021-11-16 15:04 王陸 阅读(739) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 29 下一页