摘要: 推荐系统设计过程中主要采用 Lambda 架构,读取餐饮评分数据使用ALS算法建立离线推荐模型,通过 Flume 采集数据,Kafka 作为消息队列,将实时采集的数据通过 Spark Streaming 更新推荐模型进行相关推荐。通过 Spring Boot 搭建 Web 来展示推荐结果,采用 Scala 、Java 作为主要开发语言,主要开发工具为 Intellij IDEA 。 阅读全文
posted @ 2018-09-25 17:49 山间一棵松 阅读(1243) 评论(1) 推荐(0) 编辑
摘要: 在进行大数据开发过程中,避免不了遇到数据错位的情况,出现数据错位的情况通常处于大数据开发的上游环节,为了保证数据质量需要对Hive表数据进行修复处理,本文由一次真实的Hive数据错位修复经历所启发,在这个基础上总结和扩展数据错位发生场景、数据错位修复思路和修复案例演示demo。 阅读全文
posted @ 2021-01-28 10:38 山间一棵松 阅读(1072) 评论(0) 推荐(1) 编辑
摘要: Python 2.x 判断 Excel 是否包含指定的 sheet 的解决方案,主要是判断 Excel 文件是否符合要求 使用 openpyxl 库的 load_workbook 方法 批量判断的话遍历目录中的每一个文件,先判断文件类型,再判断文件是否包含指定的 sheet from openpyx 阅读全文
posted @ 2020-12-04 09:38 山间一棵松 阅读(4496) 评论(0) 推荐(0) 编辑
摘要: Shell 脚本判断某个目录是否为空,用来判断之后的运行逻辑该怎么执行。 已知该目录是存在的,在这个基础上进行下一步操作 ls -A 的命令是列出当前目录所有文件和目录,不包含 "." (目前目录) 及 ".." (父目录) ls -a 的命令会列出所有文件和目录,"." 开头的隐藏文件也会被列出, 阅读全文
posted @ 2020-12-02 19:10 山间一棵松 阅读(13760) 评论(1) 推荐(1) 编辑
摘要: MySQL启动报错 The server quit without updating PID file 解决方案 原因分析:上一次关机前未正常关闭MySQL 解决方案:删除进程锁文件 /var/lock/subsys/mysql service mysqld start Starting MySQL 阅读全文
posted @ 2020-12-01 09:38 山间一棵松 阅读(5602) 评论(0) 推荐(0) 编辑
摘要: 结合现有的大数据环境 CDH 5.13.1 部署调度系统 Dolphin Scheduler 1.3.2 阅读全文
posted @ 2020-11-27 10:44 山间一棵松 阅读(1302) 评论(0) 推荐(0) 编辑
摘要: Shell 脚本有时候需要我们用特定的用户去启动,因为在使用过程中不能排除别的用户对其造成的影响 比如说脚本 test_user.sh 会生成一个配置文件 test_user.conf,而这个配置文件又会被别的普通用户所启动的脚本所识别、使用 这么做就会导致权限问题 为了避免这种特殊的情况,需要对 阅读全文
posted @ 2020-11-26 18:01 山间一棵松 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 在不联网的环境安装 MySQL 5.7 阅读全文
posted @ 2020-11-18 16:44 山间一棵松 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 0.说明 在实际使用中有一个需求是通过 Spark 对分区表进行增量分区的覆盖操作,Spark 1.6 的 saveAsTable 函数使用 Overwrite 存储模式设置分区表的 partition 会造成全表覆盖的问题 ,使用Append 存储模式会造成同一分区数据多次写入并不能满足我们的需求 阅读全文
posted @ 2020-11-10 15:03 山间一棵松 阅读(1485) 评论(0) 推荐(0) 编辑
摘要: 归零整理和复盘博客内容 阅读全文
posted @ 2019-08-12 22:46 山间一棵松 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 整理一遍 Git 学习笔记 阅读全文
posted @ 2019-05-02 19:50 山间一棵松 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 1. sed sed 是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作 2. awk 阅读全文
posted @ 2019-02-12 19:59 山间一棵松 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 0. 说明 1. HBase 命令 1.1 HBase 与 SQL 的区别 1.2 合并 HBase 中的小文件 1.3 删除数据的区别 阅读全文
posted @ 2019-02-12 18:57 山间一棵松 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-02-12 18:26 山间一棵松 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 0. 说明 1. 简介 1.1 简介 基于 HDFS 的大表软件(实时数据库) 十亿行 x 百万列 x 上千个版本 版本是通过 mvcc 技术控制:multiple version concurrent control HBase 数据是以字节形式存储 HBase三大组件 1.客户端 2.主服务器 阅读全文
posted @ 2019-02-12 16:56 山间一棵松 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 通过编写 UDTF ,对日志降维,将日志聚合体相关字段抽取出来,形成新表。 阅读全文
posted @ 2019-02-11 12:01 山间一棵松 阅读(373) 评论(0) 推荐(0) 编辑
摘要: UDF | UDTF 阅读全文
posted @ 2019-02-08 04:24 山间一棵松 阅读(621) 评论(0) 推荐(0) 编辑
摘要: Hive 的高级聚合函数 union all | grouping sets | cube | rollup 阅读全文
posted @ 2019-01-25 15:32 山间一棵松 阅读(805) 评论(0) 推荐(0) 编辑
摘要: Hive 的分析函数 窗口函数 | 排名函数 | 最大值 | 分层次 | lead && lag 统计活跃用户 | cume_dist 阅读全文
posted @ 2019-01-21 14:02 山间一棵松 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 将文件中的字段映射成 Hive 中的列 阅读全文
posted @ 2019-01-12 17:57 山间一棵松 阅读(815) 评论(0) 推荐(0) 编辑
摘要: Hive 的存储格式 | textfile | sequencefile | rcfile | orc | parquet | 阅读全文
posted @ 2019-01-12 16:27 山间一棵松 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by 阅读全文
posted @ 2019-01-12 15:33 山间一棵松 阅读(173) 评论(0) 推荐(0) 编辑
摘要: Hive 的设计优化,包括分区表、分桶表、内部表和外部表 阅读全文
posted @ 2019-01-05 18:27 山间一棵松 阅读(333) 评论(0) 推荐(0) 编辑
摘要: Hive 中的 DDL 操作(create | drop | alter) 阅读全文
posted @ 2019-01-05 17:55 山间一棵松 阅读(196) 评论(0) 推荐(0) 编辑
摘要: 记录 Hive 常用参数的配置,如设置 Hive 的本地模式 阅读全文
posted @ 2019-01-05 17:42 山间一棵松 阅读(197) 评论(0) 推荐(0) 编辑
摘要: Hive 通过 substr() 函数实现最高气温统计 阅读全文
posted @ 2019-01-05 17:22 山间一棵松 阅读(267) 评论(0) 推荐(0) 编辑