嘣嘣嚓 - 博客园

2019年6月2日

Elasticsearch-数据的存储、搜索（干货）

摘要： ES-深入功能ES中数据是如何组织的？逻辑设计：用于索引和搜索的基本单位是文档，可以将其认为是关系数据库里的一行。文档以类型来分组，类型包含若干文档，类似表格包含若干行。最终，一个或多个类型存在于同一索引中，索引是更大的容器，类似数据库。物理设计：ES将每个索引划分为分片，每份分片可以在集群中的不同阅读全文

posted @ 2019-06-02 22:09 嘣嘣嚓阅读(8855) 评论(0) 推荐(1)

Yarn-本地获取任务日志

摘要： Yarn-本地获取任务日志阅读全文

posted @ 2019-06-02 10:25 嘣嘣嚓阅读(1361) 评论(0) 推荐(1)

2019年5月30日

Hive-Container killed by YARN for exceeding memory limits. 9.2 GB of 9 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.

摘要： Hive on spark时报错解决a.set spark.yarn.executor.memoryOverhead=512G 调大(权宜之计)，excutor-momery + memoryOverhead不能大于集群内存b.该问题的原因是因为OS层面虚拟内存分配导致，物理内存没有占用多少，但检阅读全文

posted @ 2019-05-30 17:32 嘣嘣嚓阅读(998) 评论(0) 推荐(0)

2019年5月28日

Elasticsearch-安装、日志解读

摘要： ES-安装、日志解读 1. 准备tar包 https://www.elastic.co/cn/products/elasticsearch2. 解压 3. 启动启动日志如下 4.日志解读：（1）第一行提供了启动节点的统计信息默认情况下，ES为节点随机分配一个名字，可以在配置中修改。此处我修改为阅读全文

posted @ 2019-05-28 22:37 嘣嘣嚓阅读(477) 评论(0) 推荐(0)

2019年5月27日

Sqoop-MySQL导入hive时id为文本解决

摘要：错误如下解决修改命令如下阅读全文

posted @ 2019-05-27 15:37 嘣嘣嚓阅读(586) 评论(0) 推荐(0)

Hive-多分隔符

摘要： ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="*#&&&&#*") 多分隔符的实现。 CREATE TABLE test_ 阅读全文

posted @ 2019-05-27 14:40 嘣嘣嚓阅读(297) 评论(0) 推荐(0)

Hive-java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe

摘要： Task with the most failures(4): Task ID: task_1555476136794_8201_m_000000 URL: http://hadoop1:8088/taskdetails.jsp?jobid=job_1555476136794_8201&tipid= 阅读全文

posted @ 2019-05-27 14:40 嘣嘣嚓阅读(3584) 评论(0) 推荐(0)

Hive-生成一个大文件（小文件合并）

摘要： set hive.execution.engine=mr; --在 map-reduce 作业结束时合并小文件。如启用，将创建 map-only 作业以合并目标表/分区中的文件。 set hive.merge.mapredfiles=true; set hive.merge.rcfile.block.level=true; --合并后所需的文件大小。应大于 h... 阅读全文

posted @ 2019-05-27 14:14 嘣嘣嚓阅读(1532) 评论(0) 推荐(0)

2019年5月6日

数据仓库-数据仓库的简介(由来、与关系数据库的区别、数据仓库模型)

摘要：数据仓库的基本概念数据仓库泛化、合并多维空间的数据。构造数据仓库涉及数据清理、数据集成和数据变换，可以看做数据挖掘的一个重要预处理步骤。此外，数据仓库提供联机分析处理（OLAP）工具，用于各种粒度的多维数据的交互分析，有利于有效的数据泛化和数据挖掘。 1．什么是数据仓库数据仓库的建立为工商企业主阅读全文

posted @ 2019-05-06 22:41 嘣嘣嚓阅读(892) 评论(0) 推荐(0)

2019年4月23日

数据挖掘-数据集成

摘要：数据集成数据挖掘经常需要数据集成--合并来自多个数据存储的数据。小心仔细的集成有助于减少结果数据集的冗余和不一致。这有助于提高后续挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。数据集成将多个数据源中的数据合并，存放在一个一致的数据存储中，如存放在数据仓库中。这些数据源可阅读全文

posted @ 2019-04-23 22:26 嘣嘣嚓阅读(833) 评论(0) 推荐(0)

导航

公告