随笔 - 388 文章 - 1 评论 - 31 阅读 - 94万

04 2020 档案

摘要：hdfs dfs -cat URI : 查看文件内容 hdfs dfs -cat hdfs dfs -cat hdfs://mycluster/user/root/rcc1 hdfs dfs -cat file:///usr/hdp/2.4.2.0-258/hadoop/bin/rcc -ls <a 阅读全文

posted @ 2020-04-28 18:04 yuluoxingkong 阅读(237) 评论(0) 推荐(0) 编辑

Spark(四): Spark-sql 读hbase

摘要：SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler, 具体配置参见：Hive(五):hive与hbase整合目录： SparkSql 访问 hbase配置测试验证 SparkSql 访问 hb 阅读全文

posted @ 2020-04-28 18:03 yuluoxingkong 阅读(1900) 评论(0) 推荐(0) 编辑

Spark(三): 安装与配置

摘要：参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录： Spark集群安装参数配置测试验证 Spark集群安装：在ambari 阅读全文

posted @ 2020-04-28 18:00 yuluoxingkong 阅读(326) 评论(0) 推荐(0) 编辑

Spark(二): 内存管理

摘要：Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1 阅读全文

posted @ 2020-04-28 17:42 yuluoxingkong 阅读(251) 评论(0) 推荐(0) 编辑

Spark(一): 基本架构及原理

摘要：Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统阅读全文

posted @ 2020-04-28 16:57 yuluoxingkong 阅读(214) 评论(0) 推荐(0) 编辑

了解HBase

摘要：https://www.w3cschool.cn/hbase_doc/hbase_doc-vxnl2k1n.html hadoop2.x安装部署和基本配置（本地模式）https://blog.csdn.net/u013168084/article/details/86314165 阅读全文

posted @ 2020-04-17 14:33 yuluoxingkong 阅读(104) 评论(0) 推荐(0) 编辑

Hadoop集群搭建

摘要：一、介绍 Hadoop2.0中，2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制，Quorum Journal Node（JournalNode）集群或者Nnetwork File System（NFS）进行共享。NFS是操作系统层面的，JournalNode是hadoop层阅读全文

posted @ 2020-04-17 10:50 yuluoxingkong 阅读(357) 评论(0) 推荐(0) 编辑

什么是倒排索引？

摘要：不多说，直接上干货！见其名知其意，有倒排索引，对应肯定，有正向索引。正向索引（forward index），反向索引（inverted index）更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关阅读全文

posted @ 2020-04-13 10:55 yuluoxingkong 阅读(335) 评论(0) 推荐(0) 编辑