……

2020年5月18日
摘要: Visual Studio Code,简称 VS Code,是由微软公司开发的 IDE 工具。与微软其他 IDE(如 Visual Studio)不同的是,Visual Studio Code 是跨平台的,可以安装在 Windows、Linux 和 macOS平台上运行。不仅如此,Visual St 阅读全文
posted @ 2020-05-18 14:20 大码王 阅读(1823) 评论(0) 推荐(0) 编辑
摘要: Eclipse 是著名的跨平台 IDE 工具,最初 Eclipse 是 IBM 支持开发的免费 Java 开发工具,2001 年 11 月贡献给开源社区,目前它由非盈利软件供应商联盟 Eclipse 基金会管理。Eclipse 本身也是一个框架平台,它有着丰富的插件,例如 C++、Python、PH 阅读全文
posted @ 2020-05-18 14:17 大码王 阅读(775) 评论(0) 推荐(0) 编辑
摘要: PyCharm 是 JetBrains 公司(www.jetbrains.com)研发,用于开发 Python 的 IDE 开发工具。图 1 所示为 JetBrains 公司开发的多款开发工具,其中很多工具都好评如潮,这些工具可以编写 Python、C/C++、C#、DSL、Go、Groovy、Ja 阅读全文
posted @ 2020-05-18 14:14 大码王 阅读(1076) 评论(0) 推荐(0) 编辑
摘要: Linux 系统是为编程而生的,因此绝大多数的 Linux 发行版(Ubuntu、CentOS 等)都默认自带了 Python。有的 Linux 发行版甚至还会自带两个版本的 Python,例如最新版的 Ubuntu 会自带 Python 2.x 和 Python 3.x。 打开 Linux 发行版 阅读全文
posted @ 2020-05-18 14:09 大码王 阅读(749) 评论(0) 推荐(0) 编辑
2020年5月15日
摘要: 一、先来说一下,ClickHouse为啥快 MySQL单条SQL是单线程的,只能跑满一个core,ClickHouse相反,有多少CPU,吃多少资源,所以飞快; ClickHouse不支持事务,不存在隔离级别。这里要额外说一下,有人觉得,你一个数据库都不支持事务,不支持ACID还玩个毛。ClickH 阅读全文
posted @ 2020-05-15 16:15 大码王 阅读(4190) 评论(1) 推荐(1) 编辑
摘要: 常用SQL 创建表 1 2 3 4 5 6 7 CREATE TABLE b6logs( eventDate Date, impid UInt64, uid String, idfa String, imei String ) ENGINE=MergeTree(eventDate, (impid, 阅读全文
posted @ 2020-05-15 16:06 大码王 阅读(5417) 评论(0) 推荐(0) 编辑
摘要: Transformation 和 Action 常用算子 ​ 一、Transformation 1.1 map 1.2 filter 1.3 flatMap 1.4 mapPartitions 1.5 mapPartitionsWithIndex 1.6 sample 1.7 union 1.8 i 阅读全文
posted @ 2020-05-15 09:40 大码王 阅读(375) 评论(0) 推荐(0) 编辑
摘要: 弹性式数据集RDD ​ 一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD 4.1 缓存级别 4.2 使用缓存 4.3 移除缓存五、理解shuffle 5.1 shuffle 阅读全文
posted @ 2020-05-15 09:38 大码王 阅读(322) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 整合 Kafka ​ 一、版本说明二、项目依赖三、整合Kafka 3.1 ConsumerRecord 3.2 生产者属性 3.3 位置策略 3.4 订阅方式 3.5 提交偏移量四、启动测试 ​ 一、版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方 阅读全文
posted @ 2020-05-15 09:35 大码王 阅读(414) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 整合 Flume ​ 一、简介二、推送式方法 2.1 配置日志收集Flume 2.2 项目依赖 2.3 Spark Streaming接收日志数据 2.4 项目打包 2.5 启动服务和提交作业 2.6 测试 2.7 注意事项三、拉取式方法 3.1 配置日志收集Flum 阅读全文
posted @ 2020-05-15 09:32 大码王 阅读(454) 评论(0) 推荐(0) 编辑
2020年5月14日
摘要: Spark Streaming与流处理 ​ 一、流处理 1.1 静态数据处理 1.2 流处理二、Spark Streaming 2.1 简介 2.2 DStream 2.3 Spark & Storm & Flink ​ 一、流处理 1.1 静态数据处理 在流处理之前,数据通常存储在数据库,文件系统 阅读全文
posted @ 2020-05-14 15:40 大码王 阅读(429) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming 基本操作 ​ 一、案例引入 3.1 StreamingContext 3.2 数据源 3.3 服务的启动与停止二、Transformation 2.1 DStream与RDDs 2.2 updateStateByKey 2.3 启动测试三、输出操作 3.1 输出API 阅读全文
posted @ 2020-05-14 15:35 大码王 阅读(1739) 评论(0) 推荐(0) 编辑
2020年5月13日
摘要: 第一章、hive入门 一、hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型 阅读全文
posted @ 2020-05-13 16:23 大码王 阅读(2578) 评论(1) 推荐(0) 编辑
2020年5月12日
摘要: 用途:工具包,collection 类、事件模型、日期和时间设施、国际化和各种实用工具类(字符串标记生成器、随机数生成器和位数组、日期Date类、堆栈Stack类、向量Vector类等),集合类、时间处理模式、日期时间工具等各类常用工具包 1.Arrays类:用于数组 ①静态方法 方法名释义形参返回 阅读全文
posted @ 2020-05-12 23:50 大码王 阅读(287) 评论(0) 推荐(0) 编辑
摘要: Java+MySQL综合运用笔记 一.Java连接使用mysql的5个思路过程 **首先导入JDBC驱动jar包放到lib文件夹里面。** 1.加载驱动方法 ①注册驱动:DriverManager.registerDriver(new com.mysql.jdbc.Driver()); ②反射静态代 阅读全文
posted @ 2020-05-12 23:03 大码王 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 第一章、 clickhouse入门 一、ClickHouse介绍 ClickHouse(开源)是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。 关键词:开源、面向列、联机分析处理(OLAP) ClickHouse不仅查询速度快(相较于hive等类似的分析型DBMS),而且 阅读全文
posted @ 2020-05-12 16:50 大码王 阅读(12273) 评论(0) 推荐(2) 编辑
摘要: 第一章、datax入门 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 (这是一个单机多任务的ETL工具) 下载地址:http 阅读全文
posted @ 2020-05-12 15:56 大码王 阅读(3096) 评论(0) 推荐(0) 编辑
摘要: 第一章、canal入门 一、什么是canal canal是纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL 如上图:canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送dump 协议 二 阅读全文
posted @ 2020-05-12 09:55 大码王 阅读(1328) 评论(0) 推荐(1) 编辑
2020年5月11日
摘要: 第一章、druid入门 1.什么是Druid? Druid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。 1、Dru 阅读全文
posted @ 2020-05-11 18:47 大码王 阅读(943) 评论(0) 推荐(0) 编辑
摘要: 第一章、Elasticsearch入门 Elasticsearch(简称ES)是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。 一、Elasticsearch简介 1、应用场景 海量数据分析 阅读全文
posted @ 2020-05-11 17:19 大码王 阅读(754) 评论(1) 推荐(0) 编辑
复制代码