山间一棵松

[置顶] 基于大数据的餐饮推荐系统总结

摘要：推荐系统设计过程中主要采用 Lambda 架构，读取餐饮评分数据使用ALS算法建立离线推荐模型，通过 Flume 采集数据，Kafka 作为消息队列，将实时采集的数据通过 Spark Streaming 更新推荐模型进行相关推荐。通过 Spring Boot 搭建 Web 来展示推荐结果，采用 Scala 、Java 作为主要开发语言，主要开发工具为 Intellij IDEA 。阅读全文

posted @ 2018-09-25 17:49 山间一棵松阅读(1445) 评论(1) 推荐(0)

2021年1月28日

Hive 数据错位修复方案

摘要：在进行大数据开发过程中，避免不了遇到数据错位的情况，出现数据错位的情况通常处于大数据开发的上游环节，为了保证数据质量需要对Hive表数据进行修复处理，本文由一次真实的Hive数据错位修复经历所启发，在这个基础上总结和扩展数据错位发生场景、数据错位修复思路和修复案例演示demo。阅读全文

posted @ 2021-01-28 10:38 山间一棵松阅读(1269) 评论(0) 推荐(1)

2020年12月4日

Python 2.x 判断 Excel 是否包含指定的 sheet

摘要： Python 2.x 判断 Excel 是否包含指定的 sheet 的解决方案，主要是判断 Excel 文件是否符合要求使用 openpyxl 库的 load_workbook 方法批量判断的话遍历目录中的每一个文件，先判断文件类型，再判断文件是否包含指定的 sheet from openpyx 阅读全文

posted @ 2020-12-04 09:38 山间一棵松阅读(4847) 评论(0) 推荐(0)

2020年12月2日

Shell脚本判断目录是否为空

摘要： Shell 脚本判断某个目录是否为空，用来判断之后的运行逻辑该怎么执行。已知该目录是存在的，在这个基础上进行下一步操作 ls -A 的命令是列出当前目录所有文件和目录，不包含 "." (目前目录) 及 ".." (父目录) ls -a 的命令会列出所有文件和目录，"." 开头的隐藏文件也会被列出，阅读全文

posted @ 2020-12-02 19:10 山间一棵松阅读(15511) 评论(1) 推荐(1)

2020年12月1日

MySQL启动报错 The server quit without updating PID file 解决方案

摘要： MySQL启动报错 The server quit without updating PID file 解决方案原因分析：上一次关机前未正常关闭MySQL 解决方案：删除进程锁文件 /var/lock/subsys/mysql service mysqld start Starting MySQL 阅读全文

posted @ 2020-12-01 09:38 山间一棵松阅读(5866) 评论(0) 推荐(0)

2020年11月27日

DolphinScheduler 1.3.2集群版(基于CDH5.13.1)安装手册

摘要：结合现有的大数据环境 CDH 5.13.1 部署调度系统 Dolphin Scheduler 1.3.2 阅读全文

posted @ 2020-11-27 10:44 山间一棵松阅读(1522) 评论(0) 推荐(0)

2020年11月26日

添加 Shell 脚本的启动用户限制

摘要： Shell 脚本有时候需要我们用特定的用户去启动，因为在使用过程中不能排除别的用户对其造成的影响比如说脚本 test_user.sh 会生成一个配置文件 test_user.conf，而这个配置文件又会被别的普通用户所启动的脚本所识别、使用这么做就会导致权限问题为了避免这种特殊的情况，需要对阅读全文

posted @ 2020-11-26 18:01 山间一棵松阅读(383) 评论(0) 推荐(0)

2020年11月18日

CentOS 7 离线安装 MySQL 5.7

摘要：在不联网的环境安装 MySQL 5.7 阅读全文

posted @ 2020-11-18 16:44 山间一棵松阅读(564) 评论(0) 推荐(0)

2020年11月10日

Spark1.6 saveAsTable 函数使用 Overwrite存储模式设置分区表的 partition 会造成全表覆盖的问题

摘要： 0.说明在实际使用中有一个需求是通过 Spark 对分区表进行增量分区的覆盖操作，Spark 1.6 的 saveAsTable 函数使用 Overwrite 存储模式设置分区表的 partition 会造成全表覆盖的问题，使用Append 存储模式会造成同一分区数据多次写入并不能满足我们的需求阅读全文

posted @ 2020-11-10 15:03 山间一棵松阅读(1638) 评论(0) 推荐(0)

2019年8月12日

归零整理

摘要：归零整理和复盘博客内容阅读全文

posted @ 2019-08-12 22:46 山间一棵松阅读(236) 评论(0) 推荐(0)

2019年5月2日

Git 使用指南（标准版）

摘要：整理一遍 Git 学习笔记阅读全文

posted @ 2019-05-02 19:50 山间一棵松阅读(486) 评论(0) 推荐(0)

2019年2月12日

sed && awk

摘要： 1. sed sed 是一个很好的文件处理工具，本身是一个管道命令，主要是以行为单位进行处理，可以将数据行进行替换、删除、新增、选取等特定工作 2. awk 阅读全文

posted @ 2019-02-12 19:59 山间一棵松阅读(187) 评论(0) 推荐(0)

[HBase_3] HBase 命令

摘要： 0. 说明 1. HBase 命令 1.1 HBase 与 SQL 的区别 1.2 合并 HBase 中的小文件 1.3 删除数据的区别阅读全文

posted @ 2019-02-12 18:57 山间一棵松阅读(211) 评论(0) 推荐(0)

[HBase_2] HBase数据模型

摘要：阅读全文

posted @ 2019-02-12 18:26 山间一棵松阅读(134) 评论(0) 推荐(0)

[HBase_1] HBase安装与配置

摘要： 0. 说明 1. 简介 1.1 简介基于 HDFS 的大表软件(实时数据库) 十亿行 x 百万列 x 上千个版本版本是通过 mvcc 技术控制：multiple version concurrent control HBase 数据是以字节形式存储 HBase三大组件 1.客户端 2.主服务器阅读全文

posted @ 2019-02-12 16:56 山间一棵松阅读(197) 评论(0) 推荐(0)

2019年2月11日

[Hive_add_11] Hive 使用 UDTF 实现日志降维

摘要：通过编写 UDTF ，对日志降维，将日志聚合体相关字段抽取出来，形成新表。阅读全文

posted @ 2019-02-11 12:01 山间一棵松阅读(407) 评论(0) 推荐(0)

2019年2月8日

[Hive_12] Hive 的自定义函数

摘要： UDF | UDTF 阅读全文

posted @ 2019-02-08 04:24 山间一棵松阅读(668) 评论(0) 推荐(0)

2019年1月25日

[Hive_11] Hive 的高级聚合函数

摘要： Hive 的高级聚合函数 union all | grouping sets | cube | rollup 阅读全文