上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 33 下一页

2019年6月2日

Elasticsearch-数据的存储、搜索(干货)

摘要: ES-深入功能ES中数据是如何组织的?逻辑设计:用于索引和搜索的基本单位是文档,可以将其认为是关系数据库里的一行。文档以类型来分组,类型包含若干文档,类似表格包含若干行。最终,一个或多个类型存在于同一索引中,索引是更大的容器,类似数据库。物理设计:ES将每个索引划分为分片,每份分片可以在集群中的不同 阅读全文

posted @ 2019-06-02 22:09 嘣嘣嚓 阅读(8780) 评论(0) 推荐(1) 编辑

Yarn-本地获取任务日志

摘要: Yarn-本地获取任务日志 阅读全文

posted @ 2019-06-02 10:25 嘣嘣嚓 阅读(1297) 评论(0) 推荐(1) 编辑

2019年5月30日

Hive-Container killed by YARN for exceeding memory limits. 9.2 GB of 9 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.

摘要: Hive on spark时报错 解决a.set spark.yarn.executor.memoryOverhead=512G 调大(权宜之计),excutor-momery + memoryOverhead不能大于集群内存b.该问题的原因是因为OS层面虚拟内存分配导致,物理内存没有占用多少,但检 阅读全文

posted @ 2019-05-30 17:32 嘣嘣嚓 阅读(938) 评论(0) 推荐(0) 编辑

2019年5月28日

Elasticsearch-安装、日志解读

摘要: ES-安装、日志解读 1. 准备tar包 https://www.elastic.co/cn/products/elasticsearch2. 解压 3. 启动 启动日志如下 4.日志解读: (1)第一行提供了启动节点的统计信息 默认情况下,ES为节点随机分配一个名字,可以在配置中修改。此处我修改为 阅读全文

posted @ 2019-05-28 22:37 嘣嘣嚓 阅读(425) 评论(0) 推荐(0) 编辑

2019年5月27日

Sqoop-MySQL导入hive时id为文本解决

摘要: 错误如下 解决 修改命令如下 阅读全文

posted @ 2019-05-27 15:37 嘣嘣嚓 阅读(552) 评论(0) 推荐(0) 编辑

Hive-多分隔符

摘要: ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="*#&&&&#*") 多分隔符的实现。 CREATE TABLE test_ 阅读全文

posted @ 2019-05-27 14:40 嘣嘣嚓 阅读(275) 评论(0) 推荐(0) 编辑

Hive-java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

摘要: Task with the most failures(4): Task ID: task_1555476136794_8201_m_000000 URL: http://hadoop1:8088/taskdetails.jsp?jobid=job_1555476136794_8201&tipid= 阅读全文

posted @ 2019-05-27 14:40 嘣嘣嚓 阅读(3520) 评论(0) 推荐(0) 编辑

Hive-生成一个大文件(小文件合并)

摘要: set hive.execution.engine=mr; --在 map-reduce 作业结束时合并小文件。如启用,将创建 map-only 作业以合并目标表/分区中的文件。 set hive.merge.mapredfiles=true; set hive.merge.rcfile.block.level=true; --合并后所需的文件大小。应大于 h... 阅读全文

posted @ 2019-05-27 14:14 嘣嘣嚓 阅读(1447) 评论(0) 推荐(0) 编辑

2019年5月6日

数据仓库-数据仓库的简介(由来、与关系数据库的区别、数据仓库模型)

摘要: 数据仓库的基本概念 数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换,可以看做数据挖掘的一个重要预处理步骤。此外,数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。 1.什么是数据仓库 数据仓库的建立为工商企业主 阅读全文

posted @ 2019-05-06 22:41 嘣嘣嚓 阅读(823) 评论(0) 推荐(0) 编辑

2019年4月23日

数据挖掘-数据集成

摘要: 数据集成 数据挖掘经常需要数据集成--合并来自多个数据存储的数据。小心仔细的集成有助于减少结果数据集的冗余和不一致。这有助于提高后续挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可 阅读全文

posted @ 2019-04-23 22:26 嘣嘣嚓 阅读(736) 评论(0) 推荐(0) 编辑

上一页 1 ··· 10 11 12 13 14 15 16 17 18 ··· 33 下一页

导航