我可不是为了被全人类喜欢才活着的,只要对于某一个人来说|

王陸

园龄:6年11个月粉丝:2049关注:178

01 2022 档案

基于矩阵分解的CF算法实现
摘要:所用数据集:链接:https://pan.baidu.com/s/1OLQE7mpefXGRpADyVEkpVQ 提取码:7x5c 一、矩阵分解发展史 1.1 Traditional SVD 通常SVD矩阵分解指的是SVD(奇异值)分解技术,在这我们姑且将其命名为Traditional SVD(传统
298
0
0
协同过滤推荐算法
摘要:一、推荐模型构建流程 Data(数据)->Features(特征)->ML Algorithm(机器学习算法)->Prediction Output(预测输出) 1.1 数据清洗/数据处理 数据来源 显性数据 Rating 打分 Comments 评论/评价 隐形数据 Order history 历
761
0
0
ECharts可视化数据大屏
摘要:一、可视化面板介绍 应对现在数据可视化的趋势,越来越多企业需要在很多场景(营销数据,生产数据,用户数据)下使用,可视化图表来展示体现数据,让数据更加直观,数据特点更加突出。 1.1 使用技术 完成该项目需要具备以下知识: div + css 布局 flex 布局 Less 原生js + jquery
3488
2
0
数据仓库(三)——数仓理论
摘要:第一章 数仓分层 1.1 为什么要分层 仓库分层 ODS层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理 DWD层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化、脱敏等。保存业务事实明细,一行信息代表一次业务行为,例如一次下单。 DIM层:维度层
1017
0
0
数据仓库(二)——业务数据采集平台
摘要:一、电商业务简介 1.1 电商业务流程 电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。 当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,
525
0
0
数据仓库(一)——用户行为数据采集
摘要:# 一、数据仓库概念 数据仓库( Data Warehouse ),是**为企业制定决策,提供数据支持的**。可以帮助企业,改进业务流程、提高产品质量等。 数据仓库的输入数据通常包括:**业务数据**、**用户行为数据**和**爬虫数据**等 **业务数据**:就是各行业在**处理事务**过程中产生
2751
0
0
Hadoop——项目经验
摘要:一、HDFS存储多目录 (1)给Linux系统新增加一块硬盘 参考:https://www.cnblogs.com/yujianadu/p/10750698.html (2)生产环境服务器磁盘情况 (3)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题 HDFS的DataN
288
0
0
MySQL高级——综合案例
摘要:1.1 需求分析 在业务系统中,需要记录当前业务系统的访问日志,该访问日志包含:操作人,操作时间,访问类,访问方法,请求参数,请求结果,请求结果类型,请求时长 等信息。记录详细的系统访问日志,主要便于对系统中的用户请求进行追踪,并且在系统 的管理后台可以查看到用户的访问记录。 记录系统中的日志信息,
136
0
0
MySQL高级——常用SQL技巧、常用工具、日志、复制
摘要:第一章 常用SQL技巧 1.1 SQL执行顺序 编写顺序 SELECT DISTINCT <select list> FROM <left_table> <join_type> JOIN <right_table> ON <join_condition> WHERE <where_condition
230
0
0
MySQL高级——锁问题
摘要:第一章 Mysql锁问题 1.1 锁概述 锁是计算机协调多个进程或线程并发访问某一资源的机制(避免争抢)。 在数据库中,除传统的计算资源(如 CPU、RAM、I/O 等)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数
99
0
1
MySQL高级—— SQL优化、应用优化、查询优化、内存优化
摘要:第一章 SQL优化 1.1 大批量插入数据 环境准备 : CREATE TABLE `tb_user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(45) NOT NULL, `password` varchar(96) NO
238
0
1
Hive函数重要应用案例(多字节分隔符、URL解析函数、行列转换、JSON处理)
摘要:一、多字节分隔符 1.1 应用场景 Hive中的分隔符 Hive中默认使用单字节分隔符来加载文本数据,例如逗号、制表符、空格等等,默认的分隔符为\001。根据不同文件的不同分隔符,我们可以通过在创建表时使用 row format delimited fields terminated by ‘单字节
1257
0
0
Hadoop HA 高可用
摘要:第一章 HA 概述 (1)所谓 HA(High Availablity),即高可用(7*24 小时不中断服务)。 (2)实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制:HDFS 的 HA 和 YARN 的 HA。 (3)NameNode 主要在以下两个方面影响 HD
186
0
0
Azkaban任务调度框架
摘要:第一章、Azkaban 概论 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: Shell 脚本程序,Java 程序,MapReduce 程序、Hive 脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作
1647
0
0
Hive函数、运算符使用
摘要:一、Hive内置运算符 随着Hive版本的不断发展,在Hive SQL中支持的、内置的运算符也越来越多。可以使用下面的命令查看当下支持的运算符和函数,并且查看其详细的使用方式。 https://cwiki.apache.org/confluence/display/Hive/LanguageManu
761
0
0
HiveSQL 数据操控、查询语言(DML、DQL)
摘要:一、DML-Load加载数据 1.1 背景 回想一下,当在Hive中创建好表之后,默认就会在HDFS上创建一个与之对应的文件夹,默认路径是由参数hive.metastore.warehouse.dir控制,默认值是**/user/hive/warehouse**。 要想让hive的表和结构化的数据文
366
0
0
HiveSQL 数据定义语言(DDL)
摘要:一、数据定义语言(DDL)概述 1.1 DDL语法的作用 数据定义语言 (Data Definition Language, DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心
762
0
0
Hive入门
摘要:一、Hive 基本概念 1.1 什么是 Hive Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文
779
0
0
数据仓库
摘要:一、数据仓库概念 数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身
445
0
0
HBase分布式数据库——谷粒微博实战
摘要:第一章 需求分析 微博内容的浏览,数据库表设计 用户社交体现:关注用户,取关用户 拉取关注的人的微博内容 第二章 数据库设计 设计成三张表微博内容表、用户关系表和微博收件箱表。 微博内容表结构: | 方法名 | creatTableeContent | | | | | Table Name | we
329
0
0
HBase优化
摘要:第一章 高可用 在 HBase 中 HMaster 负责监控 HRegionServer 的生命周期,均衡 RegionServer 的负载,如果 HMaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 HMaster 的高可
97
0
0
HBase分布式数据库的安装、操作、集成
摘要:第一章 HBase 快速入门 1.1 HBase 安装部署 1.1.1 Zookeeper 正常部署 首先保证 Zookeeper 集群的正常部署,并启动之: https://www.cnblogs.com/wkfvawl/p/15539847.html#scroller-16 1.1.2 Hado
235
0
0
Redis(三)事务
摘要:第一章 事务 1.1 事务定义 Redis 事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中,不会被其他客户端发送来的命令请求所打断。 事务可以一次执行多个命令,本质是一组命令的集合。一个事务中的所有命令都会序列化,按顺序地串行化执行而不会被其他命令插入,不许加
187
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起