2023年4月6日

Hive文件存储格式详解

摘要: https://www.jianshu.com/p/fc652775c788 hive 存储格式和压缩格式 https://www.studytime.xin/article/hive-knowledge-storage-format.html 阅读全文

posted @ 2023-04-06 17:11 paike123 阅读(5) 评论(0) 推荐(0) 编辑

hive 数据仓库分层

摘要: 1:为什么要分层 大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系 我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题 2:数仓的三 阅读全文

posted @ 2023-04-06 17:09 paike123 阅读(364) 评论(0) 推荐(0) 编辑

2023年4月1日

hadoop3.3 安装配置sqoop1.4.7

摘要: 一:在hadoop3.3中安装配置sqoop1.4.7 前言: sqoop功能已经非常完善了,没有什么可以更新的了,官方停止更新维护了。因此官方集成的hadoop包停留在了2.6.0版本,在hadoop3.3.0版本会提示类版本过低错误,但纯净版sqoop有缺少必须的第三方库,所以将这两个包下载下来 阅读全文

posted @ 2023-04-01 10:50 paike123 阅读(925) 评论(0) 推荐(0) 编辑

2023年3月15日

js 高频面试题详解

摘要: 一:js 中的变量提升 例1 a = 2; var a; console.log(a); 答:2 解析:它会将当前作用域的所有变量的声明提升到程序的顶部,上述代码等价为: var a; a = 2 console.log(a); // 2 例2: console.log(a);// undefine 阅读全文

posted @ 2023-03-15 18:39 paike123 阅读(125) 评论(4) 推荐(0) 编辑

2022年10月3日

redis 缓存的模式

摘要: 一:读 1:缓存边缘化(cache aside) 应用程序先读取缓存,如果缓存没有,再去读数据库,然后更新缓存 2:通读(Read-through) 在上面的基础上抽象一层缓存层,让缓存层去读缓存数据库 二:写 1:通写(Write-through) 2:缓存之后在去写数据库(适合写数据频繁的操作) 阅读全文

posted @ 2022-10-03 09:49 paike123 阅读(301) 评论(0) 推荐(0) 编辑

2022年8月2日

jieba

摘要: Python中文分词库jieba(结巴分词)详细使用介绍 jieba这个库平时用的比较少,在这进行记录,上面的链接讲的比较全面。 1:补充一下判断词性的用法 >>> import jieba.posseg >>> str = "前端,Vue props用法小结原" >>> jieba.posseg. 阅读全文

posted @ 2022-08-02 16:51 paike123 阅读(209) 评论(0) 推荐(0) 编辑

2022年7月17日

pyspark 集成hive

摘要: 1:PySpark类库和标准Spark框架的简单对比 2: 安装 将/spark/python/pyspark 复制到 python 的安装包中 或者 pip install pyspark (注意版本对应关系) 3:spark on hive 本质: 将hive的执行引擎替换为spark 的执行引 阅读全文

posted @ 2022-07-17 12:26 paike123 阅读(562) 评论(0) 推荐(1) 编辑

2022年5月24日

-bash: /root/.rvm/scripts/rvm: No such file or directory

摘要: 通过一下方式安装的rvm (rvm的安装参考 https://blog.csdn.net/u013938578/article/details/118221111) curl -L get.rvm.io | bash -s stable 默认是在 /usr/local/rvm下,但用ssh做免密登录 阅读全文

posted @ 2022-05-24 18:27 paike123 阅读(191) 评论(0) 推荐(0) 编辑

2022年5月17日

3.1java.lang.NoSuchMethodError: org.apache.hadoop.hbase.client.HBaseAdmin.<init>

摘要: hive 建立外部表 与hbase关联报错 先看见表语句和报错代码: 再看看日志 没有直接得到有用的信息,于是网上一顿乱搜,发现有一篇 使用sqoop1.4.6从mysql5.7向hbase2.2.5导入数据出现错误大概一直(https://blog.csdn.net/u013596478/arti 阅读全文

posted @ 2022-05-17 15:12 paike123 阅读(341) 评论(0) 推荐(0) 编辑

2022年5月6日

Python datetime模块详解

摘要: 一、datetime模块介绍 一)、datetime模块中包含如下类: 类名功能说明 date 日期对象,常用的属性有year, month, day time 时间对象 datetime 日期时间对象,常用的属性有hour, minute, second, microsecond datetime 阅读全文

posted @ 2022-05-06 15:38 paike123 阅读(444) 评论(0) 推荐(0) 编辑

导航