上一页 1 2 3 4 5 6 7 8 ··· 29 下一页
摘要: 第一章 绪论 深度学习是机器学习的一个分支,是指一类问题以及解决这类问题的方法。 神经网络:一种以(人工)神经元为基本单元的模型 深度学习主要解决贡献度分配问题 每个组件都会对信息进行加工,并进而影响后续的组件,所以当得到最后的输出结果时,我们并不清楚其中每个组件的贡献度是多少。 (人工)神经网络: 阅读全文
posted @ 2022-03-11 20:20 王陸 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 第一章 数据建模 1.1 建模工具 PowerDesigner SQLYog EZDML 1.2 ODS层 Operation Data Store,原始数据层 ODS做了那些事? (1)保持数据原貌不做任何修改,起到备份数据的作用。 (2)数据采用压缩(LZO),减少磁盘存储空间(例如:原始数据1 阅读全文
posted @ 2022-02-27 15:17 王陸 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 第四章 Flink运行时架构 4.1 系统架构 4.1.1 整体构成 Flink 的运行时架构中,最重要的就是两大组件:作业管理器(JobManger)和任务管理器(TaskManager)。对于一个提交执行的作业,JobManager 是真正意义上的“管理者”(Master), 负责管理调度,所以 阅读全文
posted @ 2022-02-19 19:59 王陸 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 第一章 概述 Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。 它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 1.1 Kafka Stream特点 Kafka 阅读全文
posted @ 2022-02-18 18:19 王陸 阅读(829) 评论(0) 推荐(0) 编辑
摘要: 建表说明 ADS层不涉及建模,建表根据具体需求而定。 第一章 访客主题 1.1 访客统计 该需求为访客综合统计,其中包含若干指标,以下为对每个指标的解释说明。 指标 说明 对应字段 访客数 统计访问人数 uv_count 页面停留时长 统计所有页面访问记录总时长,以秒为单位 duration_sec 阅读全文
posted @ 2022-02-18 11:41 王陸 阅读(1364) 评论(0) 推荐(0) 编辑
摘要: 第一章 数仓搭建-ODS层 1)保持数据原貌不做任何修改,起到备份数据的作用。 2)数据采用LZO压缩,减少磁盘存储空间。100G数据可以压缩到10G以内。 3)创建分区表,防止后续的全表扫描,在企业开发中大量使用分区表。 4)创建外部表。在企业开发中,除了自己用的临时表,创建内部表外,绝大多数场景 阅读全文
posted @ 2022-02-17 14:10 王陸 阅读(786) 评论(0) 推荐(0) 编辑
摘要: 第一章 初识Flink Flink 是 Apache 基金会旗下的一个开源大数据处理框架。目前,Flink 已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入,为Flink 社区贡献了大量源码。如今 Flink 已被很多人认为是大数据实时处理的方向和未来,许 阅读全文
posted @ 2022-02-13 14:55 王陸 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 第五章、Elasticsearch进阶 5.1 核心概念 索引Index 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索引中的文档进行索引、搜索、更新 阅读全文
posted @ 2022-02-11 20:09 王陸 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 第一章 SparkSQL 概述 1.1 SparkSQL 是什么 Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL SparkSQL 的前身是 Shark,给熟悉RDBMS 但又不理解 MapRe 阅读全文
posted @ 2022-02-11 15:05 王陸 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 第一章、Elasticsearch概述 1.1 开篇 结构化数据 结构化数据 半结构化数据 1.2 技术选型 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、 Kibana、 Beats 和 Logstash(也称为 ELK Stack)。 阅读全文
posted @ 2022-02-10 17:48 王陸 阅读(267) 评论(0) 推荐(1) 编辑
摘要: 第一章 SparkStreaming 概述 1.1 Spark Streaming 是什么 Spark 流使得构建可扩展的容错流应用程序变得更加容易。 Spark Streaming 是准实时(秒,分钟)级,微批次(时间)的数据处理架构。 Spark Streaming 用于流式数据的处理。Spar 阅读全文
posted @ 2022-02-08 21:49 王陸 阅读(301) 评论(0) 推荐(0) 编辑
摘要: 第零章、前言 在之前的学习中,我们已经学习了 Spark 的基础编程方式,接下来,我们看看在实际的工作中如何使用这些 API 实现具体的需求。这些需求是电商网站的真实需求,所以在实现功能前,咱们必须先将数据准备好。 上面的数据图是从数据文件中截取的一部分内容,表示为电商网站的用户行为数据,主要包含用 阅读全文
posted @ 2022-02-07 12:27 王陸 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 一、模式匹配 Scala 中的模式匹配类似于 Java 中的 switch 语法 int i = 10 switch (i) { case 10 : System.out.println("10"); break; case 20 : System.out.println("20"); break; 阅读全文
posted @ 2022-02-05 20:13 王陸 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 第零章、三大数据结构 Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是: RDD : 弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 简单的分布式计模型架构: Driver将任务分发给多个Execut 阅读全文
posted @ 2022-02-03 19:13 王陸 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 第一章 Spark 概述 1.1 Spark 是什么 Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant A 阅读全文
posted @ 2022-02-03 09:39 王陸 阅读(569) 评论(0) 推荐(0) 编辑
摘要: 所用数据集:链接:https://pan.baidu.com/s/1OLQE7mpefXGRpADyVEkpVQ 提取码:7x5c 一、矩阵分解发展史 1.1 Traditional SVD 通常SVD矩阵分解指的是SVD(奇异值)分解技术,在这我们姑且将其命名为Traditional SVD(传统 阅读全文
posted @ 2022-01-28 20:44 王陸 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 一、推荐模型构建流程 Data(数据)->Features(特征)->ML Algorithm(机器学习算法)->Prediction Output(预测输出) 1.1 数据清洗/数据处理 数据来源 显性数据 Rating 打分 Comments 评论/评价 隐形数据 Order history 历 阅读全文
posted @ 2022-01-28 14:37 王陸 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 一、可视化面板介绍 应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出。 1.1 使用技术 完成该项目需要具备以下知识: div + css 布局 flex 布局 Less 原生js + jquery 阅读全文
posted @ 2022-01-27 21:22 王陸 阅读(3136) 评论(2) 推荐(0) 编辑
摘要: 第一章 数仓分层 1.1 为什么要分层 仓库分层 ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理 DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化、脱敏等。保存业务事实明细,一行信息代表一次业务行为,例如一次下单。 DIM层:维度层 阅读全文
posted @ 2022-01-25 16:46 王陸 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 一、电商业务简介 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。 当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录, 阅读全文
posted @ 2022-01-25 09:18 王陸 阅读(457) 评论(0) 推荐(0) 编辑
摘要: # 一、数据仓库概念 数据仓库( Data Warehouse ),是**为企业制定决策,提供数据支持的**。可以帮助企业,改进业务流程、提高产品质量等。 数据仓库的输入数据通常包括:**业务数据**、**用户行为数据**和**爬虫数据**等 **业务数据**:就是各行业在**处理事务**过程中产生 阅读全文
posted @ 2022-01-24 19:14 王陸 阅读(2213) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS存储多目录 (1)给Linux系统新增加一块硬盘 参考:https://www.cnblogs.com/yujianadu/p/10750698.html (2)生产环境服务器磁盘情况 (3)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题 HDFS的DataN 阅读全文
posted @ 2022-01-22 21:43 王陸 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1.1 需求分析 在业务系统中,需要记录当前业务系统的访问日志,该访问日志包含:操作人,操作时间,访问类,访问方法,请求参数,请求结果,请求结果类型,请求时长 等信息。记录详细的系统访问日志,主要便于对系统中的用户请求进行追踪,并且在系统 的管理后台可以查看到用户的访问记录。 记录系统中的日志信息, 阅读全文
posted @ 2022-01-21 11:36 王陸 阅读(119) 评论(0) 推荐(0) 编辑
摘要: 第一章 常用SQL技巧 1.1 SQL执行顺序 编写顺序 SELECT DISTINCT <select list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition 阅读全文
posted @ 2022-01-18 21:00 王陸 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 第一章 Mysql锁问题 1.1 锁概述 锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢)。 在数据库中,除传统的计算资源(如 CPU、RAM、I/O 等)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数 阅读全文
posted @ 2022-01-18 15:05 王陸 阅读(88) 评论(0) 推荐(1) 编辑
摘要: 第一章 SQL优化 1.1 大批量插入数据 环境准备 : CREATE TABLE `tb_user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(45) NOT NULL, `password` varchar(96) NO 阅读全文
posted @ 2022-01-17 21:11 王陸 阅读(208) 评论(0) 推荐(1) 编辑
摘要: 一、多字节分隔符 1.1 应用场景 Hive中的分隔符 Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节 阅读全文
posted @ 2022-01-17 10:13 王陸 阅读(1062) 评论(0) 推荐(0) 编辑
摘要: 第一章 HA 概述 (1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。 (2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。 (3)NameNode 主要在以下两个方面影响 HD 阅读全文
posted @ 2022-01-16 11:44 王陸 阅读(160) 评论(0) 推荐(0) 编辑
摘要: 第一章、Azkaban 概论 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: Shell 脚本程序,Java 程序,MapReduce 程序、Hive 脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作 阅读全文
posted @ 2022-01-14 10:20 王陸 阅读(1467) 评论(0) 推荐(0) 编辑
摘要: 一、Hive内置运算符 随着Hive版本的不断发展,在Hive SQL中支持的、内置的运算符也越来越多。可以使用下面的命令查看当下支持的运算符和函数,并且查看其详细的使用方式。 https://cwiki.apache.org/confluence/display/Hive/LanguageManu 阅读全文
posted @ 2022-01-12 14:34 王陸 阅读(585) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 29 下一页