消失的白桦林

2022年10月16日

摘要： spark通过pipline方式批量插入redis集群网上资料比较少，但是有一大堆都是单机的方式，spring倒是也有写入redis集群的实现代码，以下整理了spark通过pipline批量写入的方式，速度确实快，不然一条条set进去，真的是天都要黑了。依赖到的maven有以下（spark忽略）：阅读全文

posted @ 2022-10-16 20:52 消失的白桦林阅读(610) 评论(0) 推荐(0)

spark更新插入(upsert)到mysql方式

摘要： spark数据有时候需要插入mysql中的数据，有时候存在的更新已经存在的数据，也就是mpp中的upsert操作，但是spark暂时给的api只有overwrite, append等，无法满足插入更新业务逻辑；因此需要自定义实现，可以自行批量方式处理，例如： insert into personi 阅读全文

posted @ 2022-10-16 20:31 消失的白桦林阅读(1590) 评论(0) 推荐(0)

2021年4月7日

SparkSql执行hive插入警告Unable to inherit permissions

摘要：执行sparksql，插入hive 时候提示以下警告： 2021-04-03 00:22:02 WARN [org.apache.hadoop.hive.shims.HadoopShimsSecure setFullFileStatus():869]- Unable to inherit permi 阅读全文

posted @ 2021-04-07 10:28 消失的白桦林阅读(1688) 评论(0) 推荐(0)

2020年4月23日

kettle从oracle数据库中导出数据到txt文本中空格处理

摘要： 1、设置外部变量传入到表中oracle使用方式： a.进入作业，点击编辑->设置环境变量然后添加变量然后双击转换然后点击命名参数，设置命名参数与值： b.然后进入转换然后双击表输入，新建, 然后输入oracle基本信息然后双击文本文件输出：重要提醒，要获取字段必须先运行一下程序，否则程序阅读全文

posted @ 2020-04-23 10:13 消失的白桦林阅读(1492) 评论(0) 推荐(0)

2020年4月15日

Spark，ALS、LR、GBDT应用【转载的哦】

摘要：【转】https://blog.csdn.net/haozi_rou/article/details/104846914 之前说了很多机器学习，接下来讲下Spark，Spark是为大规模数据处理而设计的快速通用的计算引擎。他有很多的库，例如Spark core、Spark Sql、Spark on 阅读全文

posted @ 2020-04-15 20:53 消失的白桦林阅读(697) 评论(0) 推荐(0)

ALS召回、LR、GBDT排序的实战，A/B Test【转载的哦】

摘要：【转】https://blog.csdn.net/haozi_rou/article/details/104888594 在生成ALS和LR模型以后，接下来就可以用在代码中了。首先ALS，其实在数据已经存在数据库中了，只要从中取出来，去掉个逗号之类的就好 @Service public class 阅读全文

posted @ 2020-04-15 20:47 消失的白桦林阅读(559) 评论(0) 推荐(0)

机器学习简介，ALS、LR、GBDT【转载的哦】

摘要：【转】https://blog.csdn.net/haozi_rou/article/details/104845317 市面上的主流app，大多数情况下不同的用户看到的页面都是不同的，这里面就有一个推荐的因素了。那么我们如果想要做推荐，首先需要实现的当然是千人千面，也就是不同的人推荐展示的内容是阅读全文

posted @ 2020-04-15 20:42 消失的白桦林阅读(912) 评论(0) 推荐(0)

2019年10月11日

数仓分层架构

摘要： ods层：数据来源及建模方式：各业务系统的源数据，物理模型与业务模型一致；服务领域：为其它逻辑层提供数据；数据ETL过程描述：把业务数据抽取落地成文本文件，再装载到数据仓库ods层，不做清洗转化。功能： 1）ods是数仓准备区 2）为dwd提供原始数据 3）减少对业务系统影响建模方式及原阅读全文

posted @ 2019-10-11 15:28 消失的白桦林阅读(5531) 评论(0) 推荐(1)

2019年10月7日

定时器不生效问题

摘要：设置了定时器，却没有在指定时间执行，手动执行该脚本却可以，存在的原因是没有可执行权限，chmod 给它个可执行权限就可以了阅读全文

posted @ 2019-10-07 19:17 消失的白桦林阅读(1088) 评论(0) 推荐(0)

2019年10月6日

工作中常见的hive语句总结

摘要： hive的启动： 1、启动hadoop2、开启 metastore 在开启 hiveserver2服务nohup hive --service metastore >> log.out 2>&1 &nohup hive --service hiveserver2 >> log.out 2>&1 &查阅读全文

posted @ 2019-10-06 20:43 消失的白桦林阅读(2539) 评论(1) 推荐(0)

似水流年

公告