摘要:
阅读全文
摘要:
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 阅读全文
摘要:
Hbase集群监控
Hbase JMX集群监控,监控每个regionServer的总请求数,readRequestsCount,writeRequestCount,region分裂,region合并,Store
数据来源:/jmx?qry=Hadoop:service=HBase,name=RegionServer,sub=Server 阅读全文
摘要:
kafka使用场景
Kafka被当作传统消息中间件的替代品。消息中间件的使用原因有多种(从数据生产者解耦处理,缓存未处理的消息等)。与大多数消息系统相比,Kafka具有更好的吞吐量,内置的分区,多副本和容错功能,这使其成为大规模消息处理应用程序的良好解决方案。 阅读全文
摘要:
原文地址:http://blogxinxiucan.sh1.newtouch.com/2017/08/01/Java-curator%E6%93%8D%E4%BD%9Czookeeper%E8%8E%B7%E5%8F%96kafka/
Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。 阅读全文
摘要:
网络管理员不再拥有配置物理路由器,交换机和其他LAN / WAN组件的舒适区域。我们现在生活在一个虚拟化世界中,管理员必须挖掘VMware,Microsoft,Red Hat等虚拟化平台中的网络组件。
今天,企业IT 对容器越来越感兴趣,这些容器需要强大的网络技能才能正确配置容器架构。在本文中,我将重点介绍Docker的网络基础,轻松实现最受欢迎的容器平台。我将探讨默认的Docker网络设置,并解释Docker的用户定义配置选项如何提供扩展的网络功能。 阅读全文
摘要:
JPA是一个使用java规范发布的库。因此,它支持所有面向对象的实体持久性概念。 阅读全文
摘要:
Spark Streaming使用Spark的简单编程模型提供了可扩展,容错,高效的处理流数据的方式。它将流数据转换为“微”批次,这使得Spark的批处理编程模型能够应用于Streaming用例。这种统一的编程模型使得批量和交互式数据处理与流媒体的结合变得容易。图10显示了Spark Streaming如何用于分析来自多个数据源的数据源。 阅读全文
摘要:
Spark SQL提供了一种方便的方法,使用Spark Engine使用名为SchemaRDD的特殊类型的RDD,在大型数据集上运行交互式查询。SchemaRDD可以从现有的RDD或其他外部数据格式(如Parquet文件,JSON数据)或通过在Hive上运行HQL创建。SchemaRDD与RDBMS中的表类似。一旦数据在SchemaRDD中,Spark引擎就会将其与批量和流式使用情况相统一。Spark SQL提供两种类型的上下文:扩展SparkContext功能的SQLContext和HiveContext。 阅读全文
摘要:
Spark提供了一种非常方便的方法,通过提供累加器来避免可变计数器和计数器同步问题。累加器在具有默认值的Spark上下文中初始化。这些累加器在从站节点上可用,但从站节点无法读取它们。他们唯一的目的是获取原子更新并将其转发给Master。Master是唯一可以读取和计算所有更新的聚合的程序。例如,假设我们想要在日志级别“错误”的日志文件中查找语句的数量... 阅读全文