大数据 - 随笔分类 - dy9776

分布式快照算法: Chandy-Lamport 算法

摘要：转载https://zhuanlan.zhihu.com/p/53482103 这哥们写的好，顺便转过来吧，当做学习用。分布式快照算法: Chandy-Lamport 算法 0. 引言 Spark 的 Structured Streaming 的 Continuous Processing Mod 阅读全文

posted @ 2019-10-09 20:28 dy9776 阅读(1471) 评论(0) 推荐(0) 编辑

往hbase插入数据，你会选择哪种？

摘要：好久，好久没有写个博客了，自从上次封闭开始，到“自闭”，有了一段时间了，哈哈^_^ 、多亏了云桌面的歇菜，一下午啥都干不了，突然想到，好久没有写点啥了，就写的，让时间流走有点痕迹吧 _(:з」∠)_ 之前，做过一个小工具，就是将一个文件中的数据，插入的hbase中，将其简单阐述一番，多少记一阅读全文

posted @ 2019-05-27 16:43 dy9776 阅读(2090) 评论(0) 推荐(0) 编辑

Elasticsearch 开启

摘要：一.知识补充，摘抄，总结 1. Elasticsearch ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二流行的阅读全文

posted @ 2018-08-08 10:27 dy9776 阅读(186) 评论(0) 推荐(0) 编辑

六大主流开源SQL引擎总结

摘要：本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和IBM Big SQL，IBM 尚未将后者更名为阅读全文

posted @ 2018-04-09 12:12 dy9776 阅读(4691) 评论(0) 推荐(0) 编辑

使用mapreduce来分析网站的log日志

摘要：之前，就写过，但是忘了总结了，找了半天也没有找到，看了以后要将东西整理了。无奈，在网上收拾，看到这个人写的，索性，就搬过来，待我找到我写的，在一块补充一下！所有网站的服务器上都会保留访问的log日志。这些log日志记录的其他机器访问服务器的ip，时间，http协议，状态码等信息。比如这样： i 阅读全文

posted @ 2018-03-30 17:44 dy9776 阅读(679) 评论(0) 推荐(0) 编辑

Java资源大全中文版（Awesome最新版）

摘要：Awesome系列的Java资源整理。awesome-java 就是akullpp发起维护的Java资源列表，内容包括：构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。业务流程管理套件流程驱动的软件系统构建，中间件。 jBPM：非常灵活的业务流程管理框架，阅读全文

posted @ 2018-03-21 20:23 dy9776 阅读(1431) 评论(0) 推荐(0) 编辑

有关python numpy pandas scipy 等能在YARN集群上运行PySpark

摘要：有关这个问题，似乎这个在某些时候，用python写好，且spark没有响应的算法支持，能否能在YARN集群上运行PySpark方式，将python分析程序提交上去？ Spark Application可以直接运行在YARN集群上，这种运行模式，会将资源的管理与协调统一交给YARN集群去处理，这阅读全文

posted @ 2018-03-14 19:26 dy9776 阅读(7100) 评论(1) 推荐(3) 编辑

分布式并行软件平台 Dryad Hadoop HPCC

摘要：1.为了能够方便记忆，总结一下。 2. 并行软件平台，不是一个。（1）这个特别熟悉的以 hadoop 为平台的生态系统（2）还有以微软的并行软件平台生态系统 (3) 还有LexisNexis公司的基于 C++ 开发的 HPCC 下面补充（1）有介绍补充说明：（一）HPCC 阅读全文

posted @ 2017-12-11 17:33 dy9776 阅读(570) 评论(0) 推荐(0) 编辑

CAP原理和BASE思想

摘要：最近，有同学和我说这个 cap 和分布式系统关系，故查询一下网络，了解一下，摘抄如下：分布式领域CAP理论，C: Consistency(一致性), 数据一致更新，所有数据变动都是同步的，（如果系统对一个写操作返回成功，那么之后的读请求都必须读到这个新数据；如果返回失败，那么所有读操作阅读全文

posted @ 2017-09-06 09:56 dy9776 阅读(536) 评论(0) 推荐(0) 编辑

log4j 日志配置学习

摘要：1.用的flume-log4j avrosource的整合 2.学习如何指定类打印日志 #log4j.rootLogger=INFO,flume 这个是将全部的日志会打印出来 protected static final Log logger = LogFactory.getLog("ScriptP 阅读全文

posted @ 2017-05-23 22:41 dy9776 阅读(336) 评论(0) 推荐(0) 编辑

flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项

摘要：一. fluem中出现，transactionCapacity查询一下，得出一下这些：最近在做flume的实时日志收集，用flume默认的配置后，发现不是完全实时的，于是看了一下，原来是memeryChannel的transactionCapacity在作怪，因为他默认是100，也就是说收集端的s 阅读全文

posted @ 2017-05-23 20:31 dy9776 阅读(6813) 评论(0) 推荐(1) 编辑

开源大数据利器汇总

摘要：类别名称官网备注查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品，Apache HBase之上的一个SQL中间层，完全使用Java编写 Kylin http://kylin.io eBay开源的基于Hadoop的分布式OLAP分析阅读全文

posted @ 2017-01-02 18:16 dy9776 阅读(677) 评论(0) 推荐(0) 编辑

Hadoop HA高可用性架构和演进分析（转）

摘要：1.概况截至目前，Apache Hadoop版本分为两代，我们将第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。前者主要有如下几种实现方式：1）社区版本基于Secondary namenode机制来定时备份HDFS metadata元数据信息；2）Avata 阅读全文

posted @ 2016-11-02 13:42 dy9776 阅读(529) 评论(0) 推荐(0) 编辑

SMP、NUMA、MPP(Teradata)体系结构介绍

摘要：从系统架构来看，目前的商用服务器大体可以分为三类，即对称多处理器结构 (SMP ： Symmetric Multi-Processor) ，非一致存储访问结构 (NUMA ： Non-Uniform Memory Access) ，以及海量并行处理结构 (MPP ： Massive Parallel 阅读全文

posted @ 2016-10-29 16:09 dy9776 阅读(1197) 评论(0) 推荐(0) 编辑

配置oozie4.10+hadoop2.5.2

摘要：终于将这个神秘的寻象人 oozie 安装配置成功了，这个困扰我好几天，当看到如下的画面，我觉得值！废话少说，看我如何编译和安装过程：（已经将hadoop2.5.2HA 的环境搭建起来了，hive,habase, flume,stom 都有了 Linux环境：centos6.5 64bit j 阅读全文

posted @ 2016-10-29 11:57 dy9776 阅读(1856) 评论(0) 推荐(0) 编辑

HBASE列族不能太多的真相（一个table有几个列族就有几个 Store）

摘要：HRegionServer内部管理了一系列HRegion对象，每个HRegion对应了table中的一个region，HRegion中由多个HStore组成。每个HStore对应了Table中的一个column family的存储，可以看出每个columnfamily其实就是一个集中的存储单元，阅读全文

posted @ 2016-10-15 19:06 dy9776 阅读(12157) 评论(0) 推荐(2) 编辑

MapReduce类型与格式(输入与输出)

摘要：一、输入格式（1）输入分片记录 ①JobClient通过指定的输入文件的格式来生成数据分片InputSplit； ②一个分片不是数据本身，而是可分片数据的引用； ③InputFormat接口负责生成分片；源码位置：org.apache.hadoop.mapreduce.lib.input包(新) 阅读全文

posted @ 2016-10-13 22:48 dy9776 阅读(3041) 评论(0) 推荐(0) 编辑

hbase集群的启动,注意几个问题

摘要：1.hbase的改的会影响器他的组件的使用, 故而, 在修改 hadoop的任何组件后, 一定要记得其它的组件也能受到影响, 一下是我在将hadoop的集群改了之后 , 再次运行hbase的时候, 就会发生异常, 原因是在连接namenode的时候,发生连接不到, 就是因为我改了之前的配置,将端口号阅读全文

posted @ 2016-10-12 11:00 dy9776 阅读(10509) 评论(0) 推荐(0) 编辑

hadoop+javaWeb的开发中遇到包冲突问题(java.lang.VerifyError)

摘要：1.HDFS + WEB 项目报java.lang.VerifyError... 异常抛异常： Exception in thread "main" java.lang.VerifyError: (class: com/google/common/collect/Interners, metho 阅读全文

posted @ 2016-09-29 22:04 dy9776 阅读(5591) 评论(0) 推荐(0) 编辑

eclipse查看hadoop中文件出现乱码

摘要：出现这个问题, 我首先去找了一下几个问题: 1.文件是否是utf-8 2.上传到Linux中的hadoop, 在Linux下去查看是否乱码 3.上面都没有问题, 就去检查eclipse,将项目工程改成了utf-8, 发现不行 4.看了一下的介绍, 将eclipse的系统设置改成了uft-8, 就可以阅读全文

posted @ 2016-09-24 19:19 dy9776 阅读(1755) 评论(0) 推荐(0) 编辑

dy9776

随笔分类 - 大数据

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论