2021年8月3日

大数据架构学习记录

摘要: 早期淘宝大数据架构 以上比较早期,较为常见。 美团技术架构 美团技术架构比较明朗 从中各种要领管中窥豹。 阅读全文

posted @ 2021-08-03 14:50 Zhearts 阅读(31) 评论(0) 推荐(0) 编辑

2020年10月28日

UBUNTU 安装最新版 nodejs

摘要: whereis nodejs nodejs -v sudo npm config set registry https://registry.npm.taobao.org sudo npm install n -g sudo n stable 阅读全文

posted @ 2020-10-28 20:14 Zhearts 阅读(512) 评论(0) 推荐(0) 编辑

2020年10月21日

datax 单条记录超过大小限制,当前限制为:67108864

摘要: datax 在抽取数据的过程中经常出现“java.lang.Exception: 单条记录超过大小限制,当前限制为:67108864” 在解析源码的过程中发现 为byteCapacity 默认设置为67108864 对于一些 blob文件则经常会出现超过的限制 未解决此方法 您可以在源码中设置固定大 阅读全文

posted @ 2020-10-21 11:02 Zhearts 阅读(1773) 评论(0) 推荐(0) 编辑

2020年10月14日

将anaconda中已存在的虚拟环境增加到jupyterlab

摘要: 现阶段为了更好的业务场景,改掉以前那种老路子的坏习惯,逐渐将jupyter notebook向更高阶的jupyter lab迁徙,配合jupyter hub多账户管理, 所以本次基于jupyter hub的jupyter lab应运而生,期间遇到很多问题, 主要是linux环境的问题本次采用pam验 阅读全文

posted @ 2020-10-14 22:12 Zhearts 阅读(805) 评论(0) 推荐(0) 编辑

jupyter 启动python3 内核 总是出现错误 ImportError: cannot import name 'create_prompt_application'

摘要: 前一阶段因安装各种包将jupyter依赖包版本做了升级, 出现启动python3 kernel 之后自动失败, 如下图 具体错误如下: Traceback (most recent call last): File "/home/ubuntu/anaconda3/lib/python3.6/runp 阅读全文

posted @ 2020-10-14 10:56 Zhearts 阅读(1330) 评论(0) 推荐(0) 编辑

2020年10月10日

CDH 本地hadoop支持读写 AWS S3a

摘要: 1、需要安装S3 Connector 2、在后台管理页面 管理==》外部账户 中增加访问aws的账户 访问秘钥ID 保密秘钥 3、重启配置就可以访问 S3a hive INSERT OVERWRITE DIRECTORY 's3a://' row FORMAT DELIMITEDfields TER 阅读全文

posted @ 2020-10-10 10:57 Zhearts 阅读(967) 评论(0) 推荐(0) 编辑

2020年9月30日

hadoop 集群集成jupyterhub 出现的问题

摘要: 按照 https://cloud.tencent.com/developer/article/1349526 安装 安装过程中出现了一些问题; 一、文章中 #指定jupyterhub-singleuser命令绝对路径 c.Spawner.cmd = ['/opt/cloudera/anaconda3 阅读全文

posted @ 2020-09-30 16:16 Zhearts 阅读(1151) 评论(0) 推荐(0) 编辑

2020年9月24日

HADOOP集群运行spark出现血缘目录不存在

摘要: WARN lineage.LineageWriter: Lineage directory /var/log/spark/lineage doesn't exist or is not writable. Lineage for this application will be disabled. 阅读全文

posted @ 2020-09-24 14:43 Zhearts 阅读(492) 评论(0) 推荐(0) 编辑

2020年9月4日

将hue hadoop从用户增加到 hdfs 用户组中

摘要: 思路 创建 linux系统的supergroup目录 然后同步到hdfs sudo groupadd supergroup sudo usermod -a -G supergroup hadoop sudo su - hdfs /bin/bash -c "hdfs dfsadmin -refresh 阅读全文

posted @ 2020-09-04 18:55 Zhearts 阅读(500) 评论(0) 推荐(0) 编辑

2020年8月14日

对hadoop集群的一些优化

摘要: 1、设置普通亦或简单查询 不走mr hive.fetch.task.conversion=more 2、hive经常出现 变成存在安全隐患与变成良好之间切换 可以借鉴cdh mysql推荐配置 [mysqld] datadir=/var/lib/mysql socket=/var/lib/mysql 阅读全文

posted @ 2020-08-14 21:03 Zhearts 阅读(188) 评论(0) 推荐(0) 编辑

导航