2020 年 1月 9 日随笔档案 - bug修复中

2020年1月9日

摘要：导读：第一节：原理与过程 1：底层 2：过程第二节：集群策略与搭建 1：分发策略 2：搭建第三节：对比 1：对比solr 2：对比数据库第四节：操作 1：rest，curl 2：java操作第一节：原理与过程 1、底层（基于luceue框架） Luceue：倒排索引对数据进行分词处理，阅读全文

posted @ 2020-01-09 20:01 bug修复中阅读(319) 评论(0) 推荐(0) 编辑

大数据-storm理论

摘要：导读：第一节：基础架构 1：编程模型 2：架构 3：数据传输 4：高可靠性 5：高维护性 6：数据处理方式 7：对比MR，SPARK 第二节：计算模型 1：spout 2：bolt 3：stream grouping 4：构建拓扑与提交第三节：架构第四节：部署第五节：数据处理 1：同步计算阅读全文

posted @ 2020-01-09 19:42 bug修复中阅读(315) 评论(0) 推荐(0) 编辑

大数据-hadoop理论

摘要：前言：下面可能用的很多计算的词语，理解是计算不是单单1+1是计算，对于计算机而言，任何的程序执行就是一个计算过程。 1：计算过程区别（关键字：并行计算）传统的计算方式：一个文件数据->开始计算（整个文件有多少数据就计算多少，从头到尾）->计算结束并行计算：一个文件数据->拆分存储在一个集阅读全文

posted @ 2020-01-09 19:17 bug修复中阅读(226) 评论(0) 推荐(0) 编辑

大数据-spark理论(3)sparkSql，sparkStreaming，spark调优

摘要：导读目录第一节：sparksql 1：简介 2：核心 3：与hive整合 4：dataFrame 5：函数第二节：spark Streaming 1：对比strom 2：DStream的算子 3：代码 4：driver HA 5：读取数据第三节：spark调优第一节：sparksql （1）阅读全文

posted @ 2020-01-09 19:16 bug修复中阅读(411) 评论(0) 推荐(0) 编辑

大数据-spark理论(2)算子，shuffle优化

摘要：导读目录第一节：代码层面 1：RDD创建 2：算子 3：数据持久化算子 4：广播变量 5：累加器 6：开发流程第二节：Shuffle优化层面 1：Shuffle 2：调优第一节：代码层面（1）RDD创建： Java: sc.textfile sc.parallelize() sc.paral 阅读全文

posted @ 2020-01-09 19:15 bug修复中阅读(405) 评论(0) 推荐(0) 编辑

大数据-spark理论(1)初识，原理，搭建

摘要：导读：版本1.6，2.0 之前的数据批量处理，流式处理基本低spark的天下，现在有flink，blink（据说是阿里的flink内部版本）也开始开源了。正在学习中，我更加偏向flink（spark是以批处理为数据的处理方式，sparkStreaming属于微批处理；flink是以纯流式的数据处理阅读全文

posted @ 2020-01-09 16:36 bug修复中阅读(201) 评论(0) 推荐(0) 编辑

大数据-hive理论(4)运行方式及优化

摘要：本章分享的目录： 1：执行第一节：运行方式 2：优化第二节：hive优化第一节：hive运行方式（1）：命令行：cli：不是特别常用与hdfs交互（执行执行dfs命令）：例：dfs –ls / 与Linux交互（！开头）：例： !pwd （2）：脚本运行：应用做多的 hive -e " 阅读全文

posted @ 2020-01-09 15:45 bug修复中阅读(199) 评论(0) 推荐(0) 编辑

大数据-hive理论(3)DML

摘要：本章分享的目录： 1：表操作之插入、查询第一节：hive DML (1) 插入数据 (2) 查询数据 1、内置运算符 2、内置函数 3、自定义函数 4、Lateral view 第一节：hive DML 一：插入数据（1）：从表查数据插入到hive表（A表中id,name插入B表） from A 阅读全文

posted @ 2020-01-09 15:26 bug修复中阅读(236) 评论(0) 推荐(0) 编辑

大数据-hive理论(2)DDL

摘要：本章分享的目录： 1：表操作之表创建第一节：hive DDL (1) 建表方式 (2) 普通建表 (3) 动态分区表 (4) 视图 (5) 索引第一节：hive DDL（数据库/表的创建）一：建表方式 (1) 第一种 creat： CREATE TABLE person( id INT, na 阅读全文

posted @ 2020-01-09 15:10 bug修复中阅读(218) 评论(0) 推荐(0) 编辑

大数据-hive理论(1)基础，原理，安装

摘要：本章分享的目录： 1：基础第一节：简介与原理 2：设置用户及权限赋予第二节：角色权限 3：安装，配置，连接第三节：部署hive 4：参数动态设置第四节：hive参数设置第一节：简介与原理简介：数据仓库，对海量数据的离线处理（以HiveQL的形式，生成MR任务）；核心组件：解释器，阅读全文

posted @ 2020-01-09 14:36 bug修复中阅读(248) 评论(0) 推荐(0) 编辑

大数据-hbase理论

摘要：前言：随着数据量的不断增大，传统数据库的存储查询出现瓶颈，比如mysql采用分库分表的形式。一：简介 1.　概念：分布式的列式数据库。 2.　基本概念： 2.1　RowKey：一行数据的唯一标识（主键）。 2.2　Column Family（列族）：在定义表时候就定义完成，代表一个文件夹下的数据（阅读全文

posted @ 2020-01-09 11:25 bug修复中阅读(289) 评论(0) 推荐(0) 编辑

bug修复中

公告