摘要:
推荐系统设计过程中主要采用 Lambda 架构,读取餐饮评分数据使用ALS算法建立离线推荐模型,通过 Flume 采集数据,Kafka 作为消息队列,将实时采集的数据通过 Spark Streaming 更新推荐模型进行相关推荐。通过 Spring Boot 搭建 Web 来展示推荐结果,采用 Scala 、Java 作为主要开发语言,主要开发工具为 Intellij IDEA 。 阅读全文
摘要:
在进行大数据开发过程中,避免不了遇到数据错位的情况,出现数据错位的情况通常处于大数据开发的上游环节,为了保证数据质量需要对Hive表数据进行修复处理,本文由一次真实的Hive数据错位修复经历所启发,在这个基础上总结和扩展数据错位发生场景、数据错位修复思路和修复案例演示demo。 阅读全文
摘要:
Python 2.x 判断 Excel 是否包含指定的 sheet 的解决方案,主要是判断 Excel 文件是否符合要求 使用 openpyxl 库的 load_workbook 方法 批量判断的话遍历目录中的每一个文件,先判断文件类型,再判断文件是否包含指定的 sheet from openpyx 阅读全文
摘要:
Shell 脚本判断某个目录是否为空,用来判断之后的运行逻辑该怎么执行。 已知该目录是存在的,在这个基础上进行下一步操作 ls -A 的命令是列出当前目录所有文件和目录,不包含 "." (目前目录) 及 ".." (父目录) ls -a 的命令会列出所有文件和目录,"." 开头的隐藏文件也会被列出, 阅读全文
摘要:
MySQL启动报错 The server quit without updating PID file 解决方案 原因分析:上一次关机前未正常关闭MySQL 解决方案:删除进程锁文件 /var/lock/subsys/mysql service mysqld start Starting MySQL 阅读全文
摘要:
结合现有的大数据环境 CDH 5.13.1 部署调度系统 Dolphin Scheduler 1.3.2 阅读全文
摘要:
Shell 脚本有时候需要我们用特定的用户去启动,因为在使用过程中不能排除别的用户对其造成的影响 比如说脚本 test_user.sh 会生成一个配置文件 test_user.conf,而这个配置文件又会被别的普通用户所启动的脚本所识别、使用 这么做就会导致权限问题 为了避免这种特殊的情况,需要对 阅读全文
摘要:
在不联网的环境安装 MySQL 5.7 阅读全文
摘要:
0.说明 在实际使用中有一个需求是通过 Spark 对分区表进行增量分区的覆盖操作,Spark 1.6 的 saveAsTable 函数使用 Overwrite 存储模式设置分区表的 partition 会造成全表覆盖的问题 ,使用Append 存储模式会造成同一分区数据多次写入并不能满足我们的需求 阅读全文
摘要:
整理一遍 Git 学习笔记 阅读全文
摘要:
1. sed sed 是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作 2. awk 阅读全文
摘要:
0. 说明 1. HBase 命令 1.1 HBase 与 SQL 的区别 1.2 合并 HBase 中的小文件 1.3 删除数据的区别 阅读全文
摘要:
阅读全文
摘要:
0. 说明 1. 简介 1.1 简介 基于 HDFS 的大表软件(实时数据库) 十亿行 x 百万列 x 上千个版本 版本是通过 mvcc 技术控制:multiple version concurrent control HBase 数据是以字节形式存储 HBase三大组件 1.客户端 2.主服务器 阅读全文
摘要:
通过编写 UDTF ,对日志降维,将日志聚合体相关字段抽取出来,形成新表。 阅读全文
摘要:
UDF | UDTF 阅读全文
摘要:
Hive 的高级聚合函数 union all | grouping sets | cube | rollup 阅读全文
摘要:
Hive 的分析函数 窗口函数 | 排名函数 | 最大值 | 分层次 | lead && lag 统计活跃用户 | cume_dist 阅读全文
摘要:
将文件中的字段映射成 Hive 中的列 阅读全文
摘要:
Hive 的存储格式 | textfile | sequencefile | rcfile | orc | parquet | 阅读全文
摘要:
全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by 阅读全文