URL

Bookmarks

 

书签栏

 

公司

 

大数据

 

大数据

 

Kafka

 

apache kafka技术分享系列(目录索引) - 李志涛的专栏 - 博客频道 - CSDN.NET
Apache Kafka
KafkaProducer (clients 0.8.2.0 API)
Kafka使用入门教程 - 简单介绍_服务器应用_Linux公社-Linux系统门户网站
users@kafka.apache.org Archives
kafka配置
GitHub - yahoo/kafka-manager: A tool for managing Apache Kafka.

 

hadoop

 

Hadoop 2.X 完全分布式部署安装_百度经验
hadoop2.3.0安装及eclipse开发环境配置-jingwei269-ITPUB博客

 

HBase

 

HBase 0.98发布,安全和性能提升 - 数据库 - ITeye资讯
Apache HBase ™ Reference Guide
HBase – Project Mailing Lists
Deprecated List (HBase 2.0.0-SNAPSHOT API)
HBase 常用Shell命令 - 残雪余香 - 博客园
HBase源码分析_百度文库
HBase -ROOT-和.META.表结构 - greatwqs : Where amazing happens ... - ITeye技术网站
查看HBase表在HDFS中的文件结构 - 51CTO.COM
HBase修改压缩格式及Snappy压缩实测分享 - 石头儿 - 博客园
HBase的Compact和Split源码分析与应用--基于0.94.5 - anhuidelinger的专栏 - 博客频道 - CSDN.NET
HBase compact 总结 及 调优配置 - CSDN博客
dev@hbase.apache.org Archives
Apache HBase
org.apache.hadoop.hbase.coprocessor.AggregateImplementation 来统计表的行数 - xiao_jun_0820的专栏 - 博客频道 - CSDN.NET
Hbase - 记录分享每一点进步和成长 - 博客频道 - CSDN.NET
hbase region split 源码分析 - - ITeye技术网站
HBase配置性能调优(转) - ggjucheng - 博客园
HBase - 文章 - 伯乐在线
Newest 'hbase' Questions - Stack Overflow
【甘道夫】HBase随机宕机事件处理 & JVM GC回顾 - 甘道夫的大数据进化论 - 博客频道 - CSDN.NET
HBase 在HDFS 上的目录树 - 残雪余香 - 博客园
【甘道夫】HBase随机宕机事件处理 & JVM GC回顾 - 甘道夫的大数据进化论 - 博客频道 - CSDN.NET
分布式数据库 Hbase 的高可用管理和监控

 

Spark

 

Spark亚太研究院系列丛书——Spark实战高手之路 从零开始_读书频道_51CTO.COM_领先的中文IT技术网站
Spark 1.0.2 ScalaDoc - spark - Spark 1.0.2 ScalaDoc - org.apache.spark
Tachyon:Spark生态系统中的分布式内存文件系统-CSDN.NET
大数据 - 随笔分类 - bourneli - 博客园
spark1.2api
Spark 缓存管理-CacheManger彻底解密源码 - 在云端-Spark,Hadoop,Scala,Workflow,blabla - ITeye技术网站
user@spark.apache.org Archives
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介 - shishanyuan - 博客园
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署 - shishanyuan - 博客园
Documentation | Apache Spark
Frequent 'apache-spark' Questions - Stack Overflow
本地开发spark代码上传spark集群服务并运行(基于spark官网文档) - stark_summer的专栏 - 博客频道 - CSDN.NET
Spark 调优 - 技术翻译 - 开源中国社区

 

Zookeeper

 

ZooKeeper原理及使用 - 就是你的博客 - 博客频道 - CSDN.NET
zookeeper使用和原理探究(一) - BucketLi - BlogJava
ZooKeeper常见问题(转) - 天上满是飞机 - 博客频道 - CSDN.NET
zookeeper超时--minSessionTimeout与maxSessionTimeout - xiaolang85的专栏 - 博客频道 - CSDN.NET
Apache Curator Examples –
ZooKeeper/FAQ - Hadoop Wiki
ZooKeeper: Because Coordinating Distributed Systems is a Zoo
zookeeper项目使用几点小结 - <starhu> - 博客园

 

ES

 

Java API
Elasticsearch: The Definitive Guide [2.x] | Elastic
TooManyClauses[maxClauseCount is set to 1024] - Elasticsearch - Discuss the Elastic Stack
Query DSL: Allow to control (globally) the max clause count for `bool` query (defaults to 1024) · Issue #482 · elastic/elasticsearch · GitHub
Elasticsearch的[monitor.jvm]垃圾回收日志 - Jeffrey Zhou 的专栏 - 博客频道 - CSDN.NET

 

LDA漫游指南_正版电子书在线阅读_百度阅读
Apache Solr查询语法(转) - ct - 博客园
94-搜索引擎_elasticSearch - 随笔分类 - MR-fox - 博客园
elasticsearch - july_2的专栏 - 博客频道 - CSDN.NET
wait_for - Waits for a condition before continuing. — Ansible Documentation
【HDFS】FusionInsight-HDFS-FAQ - 论坛 - 华为企业互动社区
[Elasticsearch] 多字段搜索 (六) - 自定义_all字段,跨域查询及精确值字段 - dm_vincent的专栏 - 博客频道 - CSDN.NET
InfoQ - 促进软件开发领域知识与创新的传播

 

技术

 

数据库

 

PostgreSQL新手教程_百度经验
PostgreSQL创建用户,数据库,表 - Zhong Weicheng Study Notes - 博客频道 - CSDN.NET
PostgreSQL服务器启动和关闭方法介绍 - Socrates的专栏 - 博客频道 - CSDN.NET
PostgreSQL新手入门 - 阮一峰的网络日志

 

UML

 

UML类图实例 - Hello World - 博客频道 - CSDN.NET
uml各类图 - wangkangluo1 - 博客园
深入浅出UML类图(一) - 刘伟技术博客 - 博客频道 - CSDN.NET
UML类图几种关系的总结 - OPEN 开发经验库
UML 中关系详解以及在visio中的表示 - kittywei - 博客园

 

序列化

 

java内置的序列化方式性能 protostuff - john521 - ITeye技术网站
Unity手游之路<二>Java版服务端使用protostuff简化protobuf开发 - 游戏自由之路 - 博客频道 - CSDN.NET
Google 开源技术protobuf - guisu,程序人生。 逆水行舟,不进则退。 - 博客频道 - CSDN.NET

 

单元测试

 

java的mock测试框架(转载) - 妙妙的个人空间 - 51Testing软件测试网 51Testing软件测试网-中国软件测试人的精神家园

 

Scala

 

Scala之旅-class和object详解 - jiangpeng59的专栏 - 博客频道 - CSDN.NET

 

开发

 

idea打包jar的多种方式 - byhieg - 博客园

 

运维

 

记一次 superblock 损坏导致服务器无法启动的故障修复 - Dancefire 的技术博客 - C++博客

 

WebService

 

使用Eclipse自带的Axis1插件生成Web Service服务端/客户端 - 怀揣梦想,努力前行 - 博客频道 - CSDN.NET

 

监控和性能优化

 

JVM调优总结(十)-调优方法 - 和你在一起 - ITeye技术网站
使用 VisualVM 进行性能分析及调优
JVM性能调优 - 老码农的专栏 - 博客频道 - CSDN.NET
如何使用JVisualVM进行性能分析 - 加俊 - ITeye技术网站
Java jvisualvm简要说明 - 怀揣梦想,努力前行 - 博客频道 - CSDN.NET
成为JavaGC专家Part II — 如何监控Java垃圾回收机制 - ImportNew

 

Java SE - Downloads | Oracle Technology Network | Oracle
Java XML - helloworldhellobbboy的专栏 - 博客频道 - CSDN.NET
Apache CXF_全部文档 - OPEN开源文档
CXF WebService开发指南、技术文档.docx - Apache CXF - OPEN开源文档
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询 - JavaCrazyer的ItEye(codewu.com)技术博客 - ITeye技术网站
cron表达式详解 - Ruthless - 博客园
Apache CXF实战之二:集成Sping与Web容器 - 51CTO.COM
如何修改Maven的JDK版本_百度经验
Maven错误信息:Missing artifact jdk.tools:jdk.tools:jar:1.6 - 沉底的石头 - 博客频道 - CSDN.NET
RSync实现文件备份同步 - iTech - 博客园
Learn UML with JUDE - Mr. David 专栏 - 博客频道 - CSDN.NET
Linux中变量$#,$@,$0,$1,$2,$*,$$,$?的含义 - jihite - 博客园
alternatives命令用法 - chszs的专栏 - 博客频道 - CSDN.NET
使用HttpUrlConnection进行post请求上传文件 - 努力,让生活变得更美好 - ITeye技术网站
Linux上的free命令详解 - coldplayerest - 博客园
Linux IO实时监控iostat命令详解 - ggjucheng - 博客园
Linux下定时执行脚本 - Decode360's Blog - BlogJava
NFS服务器设置及mount命令挂载 - kevinhg的博客 - 博客频道 - CSDN.NET
多台CentOS服务器时间同步(NTP时间同步) - Be the best myself - 博客频道 - CSDN.NET
设计模式之单例模式(线程安全) - 旭东的博客 - 博客园
Index of release/org/springframework/spring
Ansible Documentation

 

技术网站

 

CSDN.NET - 全球最大中文IT社区,为IT专业技术人员提供最全面的信息传播和服务平台
InfoQ - 促进软件开发领域知识与创新的传播
Maven Repository: Search/Browse/Explore
IBM developerWorks 中国 : IBM developerWorks : 技术主题
GitHub · Where software is built
Available Mailing Lists
博客园 - 开发者的网上家园
stackoverflow.com
apache - Wiki

 

其它

 

eclipse 配置黑色主题 - csulennon - 博客园
[云计算] IntellijIDEA14.1.4Scala开发环境搭建 | 软件世界网
JAVA IDE IntelliJ IDEA使用简介(二)—之基本操作 - 一步一步学习C/C++;一步一步深入了解linux - 博客频道 - CSDN.NET
深入理解Hadoop (豆瓣)
深入理解Hadoop - 图书 - 亚马逊
Google Translate
作为程序员的你,常用的工具软件有哪些? - 编程 - 知乎

 

tmp

 

新建文件夹

 

多网卡绑定_百度搜索
linux多网卡绑定bonding-yue306-ChinaUnix博客
如何配置多网卡绑定_百度经验
HBase实战系列2—Region监控 - 为程序员服务
HBase深入分析之RegionServer - 推酷
hbase region split策略 - kuyuyingzi的专栏 - 博客频道 - CSDN.NET
JVM虚拟机选项:Xms Xmx PermSize MaxPermSize区别 - Smart Knight - BlogJava
JVM调优总结(十)-调优方法 - 和你在一起 - ITeye技术网站
IntelliJ IDEA 使用心得与常用快捷键 - 码农往事 - BlogJava
ASP.NET中JSON的序列化和反序列化 - Asharp - 博客园
HBase性能优化2—使用Coprocessor进行RowCount统计 | Binospace
Zookeeper从入门到精通 - HelloWorld
HBaseClient源码分析 - luyee2010的专栏 - 博客频道 - CSDN.NET
Hadoop - wangdi_ao的专栏 - 博客频道 - CSDN.NET
hbase HTable之Put、delete、get等源码分析-Hbase-about云开发
zookeeper - Rebalancing issue while reading messages in Kafka - Stack Overflow
hbase region split 源码分析 - - ITeye技术网站
HBase 学习笔记---守护进程及内存调优 - 其他综合 - 红黑联盟
HBase RegionServer宕机处理恢复 - emailed - 推酷
java - HBase: /hbase/meta-region-server node does not exist - Stack Overflow
hbase日志出现Session expired异常排查方法 - fanbells的日志 about云开发
itindex.net/detail/49632-hbase-性能调优
hbase性能调优 | IT瘾
HBase 默认配置 - 小菜鸟的成长之路 - ITeye技术网站
zookeeper - Rebalancing issue while reading messages in Kafka - Stack Overflow
hbase region split 源码分析 - - ITeye技术网站
Kafka学习之broker配置(0.8.1版) - 推酷
apache kafka系列之kafka.common.ConsumerRebalanceFailedException异常解决办法 - strawbingo的专栏 - 博客频道 - CSDN.NET
zookeeper超时--minSessionTimeout与maxSessionTimeout - xiaolang85的专栏 - 博客频道 - CSDN.NET
处理Zookeeper的session过期问题 - xylz,imxylz - BlogJava
实时系统HBase读写优化--大量写入无障碍 - MrTitan的专栏 - 博客频道 - CSDN.NET
HBase性能优化方法总结 | 量子恒道官方博客
HBase一次慢查询请求的问题排查与解决过程 - 大圆那些事 - 博客园
HBase compact 总结 及 调优配置 - CSDN博客
HBase解决Region Server Compact过程占用大量网络出口带宽的问题 - 大圆那些事 - 博客园
[KAFKA-1387] Kafka getting stuck creating ephemeral node it has already created when two zookeeper sessions are established in a very short period of time - ASF JIRA
往hdfs上追加数据【hadoop写数据】-HDFS-about云开发

 

Hbase总结(八)Hbase中的Coprocessor - 记录分享每一点进步和成长 - 博客频道 - CSDN.NET
Hbase总结(十)Hhase性能调优 - 记录分享每一点进步和成长 - 博客频道 - CSDN.NET
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介 - shishanyuan - 博客园

160220

 

Apache Ignite(一):简介以及和Coherence、Gemfire、Redis等的比较 - 李玉珏的技术博客 - 开源中国社区
《Spark/Tachyon:基于内存的分布式存储系统》-史鸣飞(英特尔亚太研发有限公司大数据软件部工程师) | 七牛云存储
JAVA IDE IntelliJ IDEA使用简介(三)—之你不能忘记的快捷键 - 一步一步学习C/C++;一步一步深入了解linux - 博客频道 - CSDN.NET
Tachyon 0.7.0伪分布式集群安装与测试 – 过往记忆
敢说 Apache Ignite 比 Tachyon 好?删帖! - 开源中国社区
spark tachyon 搭建 配置 - - ITeye技术网站
tachyon与hdfs,以及spark整合 - stark_summer - ITeye技术网站
tachyon与hdfs,以及spark整合 - stark_summer的专栏 - 博客频道 - CSDN.NET

 

0305

 

Scala 强大的集合数据操作示例 - 志旺的博客 - 博客频道 - CSDN.NET
JAVA IDE IntelliJ IDEA使用简介(三)—之你不能忘记的快捷键 - 一步一步学习C/C++;一步一步深入了解linux - 博客频道 - CSDN.NET
Re: how to debug ExecutorLostFailure
Spark使用总结与分享 - bourneli - 博客园
spark 使用中会遇到的一些问题及解决思路 - xiao_jun_0820的专栏 - 博客频道 - CSDN.NET
Spark:RDD理解
jvm - datastax : Spark job fails : Removing BlockManager with no recent heart beats - Stack Overflow
Spark使用总结与分享 - bourneli - 博客园

 

0311

 

spring 定时任务的 执行时间设置规则 - grous的专栏 - 博客频道 - CSDN.NET
Spring定时任务的几种实现 - - ITeye技术网站
新手浅谈Future - 文酱 - 博客园

 

新建文件夹423

 

Spark使用总结与分享 - bourneli - 博客园
Matei Zaharia:Spark的现状和未来_图文_百度文库
Scala学习笔记5 (集合 Collections) - lyrebing的专栏 - 博客频道 - CSDN.NET

 

新建文件夹0429

 

Overview - Spark 1.5.2 Documentation
Frequent 'apache-spark' Questions - Stack Overflow
Frequent 'apache-spark' Questions - Stack Overflow
scala - How to convert rdd object to dataframe in spark - Stack Overflow
hadoop 常见错误 - hello - 博客频道 - CSDN.NET
【年度案例】大数据盘点之Spark篇-高可用架构-微头条(wtoutiao.com)
校长:技术成长四个阶段需要的架构知识-高可用架构-微头条(wtoutiao.com)
Spark技术内幕:Executor分配详解-博客-云栖社区-阿里云
spark 使用中会遇到的一些问题及解决思路 - xiao_jun_0820的专栏 - 博客频道 - CSDN.NET
HeapDumpOnOutOfMemoryError堆转储实践和一些分析 - Iteye博客 - ITeye技术网站

 

0507

 

新建文件夹

 

Spark Release 1.6.0 | Apache Spark
ElasticSearch在linux上的安装部署全程记录 - 天际霄鹰 - 博客园
使用Java调用ElasticSearch提供的相关API进行数据搜索完整实例演示 - 推酷
大数据下的日志--ElasticSearch部分(二)--结合Java基本操作 - 许恕 - 博客频道 - CSDN.NET
Elasticsearch基础教程 - - 博客频道 - CSDN.NET
ElasticSearch首页、文档和下载 - 分布式搜索引擎 - 开源中国社区
elasticsearch的javaAPI之query - 推酷
分布式搜索Elasticsearch——QueryBuilders.matchPhraseQuery | 学步园
使用java访问elasticsearch创建索引 - - ITeye技术网站
ElasticSearch的基本用法与集群搭建 - 阿凡卢 - 博客园
elasticsearch-查询基础篇 - Danny Chen - 博客园
Docs
elasticsearch java or_百度搜索
ElasticSearch Java api 详解_V1.0-布布扣-bubuko.com
[Elasticsearch] 全文搜索 (二) - 多词查询及查询的合并 - dm_vincent的专栏 - 博客频道 - CSDN.NET
ElasticSearch 查询语法 - 蝈蝈俊 - 推酷
ElasticSearch Java api 详解_V1.0-布布扣-bubuko.com
使用Java调用ElasticSearch提供的相关API进行数据搜索完整实例演示 - 推酷

 

513

 

kill掉yarn正在运行的job - canglingye的专栏 - 博客频道 - CSDN.NET
elasticsearch 查询(match和term) - 轩脉刃 - 博客园
怎么解决java.lang.NoClassDefFoundError错误 - jamesjxin的专栏 - 博客频道 - CSDN.NET
elasticsearch-查询基础篇 - Danny Chen - 博客园
使用Java调用ElasticSearch提供的相关API进行数据搜索完整实例演示 - 推酷
Index API

 

0604

 

kafka不消费 - 君涯的专栏 - 博客频道 - CSDN.NET
Shell调试篇 - perlman - 博客园
linux中shell变量$#,$@,$0,$1,$2的含义解释 - fhefh - 博客园
linux shell自定义函数(定义、返回值、变量作用域)介绍_linux shell_脚本之家
bash编程 奇怪的错误 脚本空行报错 数组无法正常工作 - Linux/Unix - $r: command not found - bash - Linux - shell - Unix - 使用 - 如何 - 字符串 - 定义 - 执行 - 报错 - 数组 - 空白 - 空行 - 编程 - 脚本 - 运行 - DigDeeply's Blog | 个人博客 | 技术博客

 

0618

 

用Jersey开发RESTful服务 -解道Jdon
hbase日常操作以及日常维护 - 北游运维 - 开源中国社区
Wiztools RESTclient 使用说明_百度文库
使用 soapUI 测试 REST 服务
测试rest接口的两个工具使用详解(restclient+soapUI) - Alexia(minmin) - 博客园
Hadoop HDFS 升级到2.0 笔记
hadoop 常见错误 - hello - 博客频道 - CSDN.NET
elasticSearch学习笔记 - 自由出土文物 - 博客园
Elasticsearch入门介绍 - xingoo - 博客园
elasticsearch 集群 - 轩脉刃 - 博客园
使用assembly将maven项目pom.xml中的jar包打包 - Pasier - 博客园

 

0708

 

hadoop集群崩溃恢复记录 - lskyne的专栏 - 博客频道 - CSDN.NET
Hadoop常见问题及解决方案 - zhaozheng7758的专栏 - 博客频道 - CSDN.NET
关于Hadoop数据块Miss在页面提示的问题 - dajuezhao的专栏 - 博客频道 - CSDN.NET
Hadoop :实践环节–故意造成数据块丢失 - 晨雪无痕 - 博客频道 - CSDN.NET
模拟namenode宕机:数据块损坏,该如何修复-大数据学习-about云开发
HADOOP NAMENODE 崩溃恢复记录【转】_刀刀_新浪博客
linux文件系统问题:wrong fs type, bad option, bad superblock-lurou-ITPUB博客
HBase随机宕机事件处理 & JVM GC回顾-Hbase-about云开发
成为JavaGC专家Part I -- 深入浅出Java垃圾回收机制 - ImportNew

新建文件夹

 

linux shell数据重定向(输入重定向与输出重定向)详细分析 - 程默 - 博客园
shell 输出重定向(> >> 2>&1) - feng27156的专栏 - 博客频道 - CSDN.NET
【原创】kafka server源代码分析(一)
kafka在zookeeper中存储结构 - 推酷

 

0716

 

Hadoop性能调优小结(一) - 研发管理
HBase - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
hbase的coprocessor使用 - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
提升HBase写性能 - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
HLog代码分析 - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
Hadoop优化与调整 – 过往记忆
为什么(hadoop基准测试中)HDFS写入速度如此之慢? - Hadoop - 知乎
优化hbase的查询提升读写速率优化案例及性能提升的几种方法-大数据学习-about云开发

 

0722

 

你若不离不弃,我必生死相依 - 面向对象 - 伯乐在线
ElasticSearch搜索实例含高亮显示及搜索的特殊字符过滤_服务器应用_Linux公社-Linux系统门户网站
Elasticsearch——Templates 模板 - july_2的专栏 - 博客频道 - CSDN.NET
HBase - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
HBase 维护--查看HLog和HFile - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
提升HBase写性能 - Hadoop、HBase、ElasticSearch、Storm、Kafka、Spark - 博客频道 - CSDN.NET
elasticsearch更改mapping(不停服务重建索引) - 推酷
[Elasticsearch] 多字段搜索 (六) - 自定义_all字段,跨域查询及精确值字段 - dm_vincent的专栏 - 博客频道 - CSDN.NET
(转)ElasticSearch学习 - Danny Chen - 博客园
ElasticSearch的_all域 - Jeffrey Zhou 的专栏 - 博客频道 - CSDN.NET
Logs for container_1469178292162_0003_01_000002

 

0806

 

Linux exec与重定向 - 编程的数学原理 - 博客频道 - CSDN.NET
Java之美[从菜鸟到高手演变]之设计模式二 - 智慧演绎,无处不在 - 博客频道 - CSDN.NET
[Elasticsearch] 过滤查询以及聚合(Filtering Queries and Aggregations) - dm_vincent的专栏 - 博客频道 - CSDN.NET
[Elasticsearch] 聚合 - 时间数据处理(Looking at Time) - dm_vincent的专栏 - 博客频道 - CSDN.NET

 

0902

 

[Elasticsearch] 多字段搜索 (六) - 自定义_all字段,跨域查询及精确值字段 - dm_vincent的专栏 - 博客频道 - CSDN.NET
Elasticsearch: The Definitive Guide [2.x] | Elastic
视频云结构化服务器
Spark技术社区-CSDN.NET

新建文件夹

 

修改SecureCRT终端的Home和End功能键。 - 相濡以沫 - 51CTO技术博客
Elasticsearch重要文章之三:重要配置项的修改 - Andy - 开源中国社区
QuartZ Cron表达式 - sunjie - 博客园
quartz Cron表达式 每周执行一次要怎样写??? - 开源中国社区
[BAT][JAVA]定时任务之-Quartz使用篇 - 王德封-逐浪 - 博客频道 - CSDN.NET
【HDFS】FusionInsight-HDFS-FAQ - 论坛 - 华为企业互动社区

 

0910

 

[Elasticsearch] 过滤查询以及聚合(Filtering Queries and Aggregations) - dm_vincent的专栏 - 博客频道 - CSDN.NET
Elasticsearch java API (17)Aggregations 聚合 函数 - u012116196的专栏 - 博客频道 - CSDN.NET
[转载]Elasticsearch Java API总汇 - wmx3ng - 博客园
Java总结篇系列:Java泛型 - Windstep - 博客园
[Elasticsearch] 过滤查询以及聚合(Filtering Queries and Aggregations) - dm_vincent的专栏 - 博客频道 - CSDN.NET
ElasticSearch测试小例子 - 八荒六合唯我独尊 - 博客频道 - CSDN.NET
Elasticsearch 2.2.0 JAVA开发篇:搜索操作 - 赛克蓝德的个人页面 - 开源中国社区
elasticsearch JAVA客户端操作---搜索的过滤、分组高亮,elasticsearchjava_云计算 | 帮客之家
java - ElasticSearch - Using FilterBuilders - Stack Overflow
elasticsearch__5__java操作之FilterBuilders构建过滤器Query - GourdErwa - 博客频道 - CSDN.NET
ElasticSearch的基本用法与集群搭建 - 阿凡卢 - 博客园

 

0930

 

Apache Kafka
KafkaConsumer (clients 0.9.0.1 API)
Kafka使用入门教程 - 简单介绍_服务器应用_Linux公社-Linux系统门户网站
Elasticsearch写入性能优化 - jamesjxin的专栏 - 博客频道 - CSDN.NET
java定时调度器(Quartz)使用实例_java_脚本之家

 

1011

 

lftp用法手册 - huxuanhui的空间 - 开源中国社区
linux下使用lftp的小结 - 酷酷的小鱼儿 - 博客园
lftp使用方法以及配置 - 雨点的日志 - 网易博客
Linux之ftp命令使用 - longxibendi的专栏 - 博客频道 - CSDN.NET

 

0120

 

Running Spark on YARN - Spark 1.5.2 Documentation
并发队列ConcurrentLinkedQueue和阻塞队列LinkedBlockingQueue用法 - Ruthless - 博客园
Maven解决类包依赖冲突 - z69183787的专栏 - 博客频道 - CSDN.NET
IntelliJ IDEA查寻依赖关系,解决jar包冲突 - 开源软件

 

0210

 

HTTPS(SSL加密)webservice客户端访问总结 - FISH的专栏 - 博客频道 - CSDN.NET
通过 https 连接webservice示例 - 罗罗的专栏 - 博客频道 - CSDN.NET
如何通过HTTPS(SSL加密)方式访问webservice - 周泽辉的CSDN博客... - 博客频道 - CSDN.NET
4.3 大数据预研组 - 海康威视研究院 - 海康威视-企业wiki平台
GC调优在Spark应用中的实践-CSDN.NET

 

0218

 

Module ngx_http_ssl_module
完美配置Tomcat的HTTPS - huaishuming的专栏 - 博客频道 - CSDN.NET
配置Tomcat使用https协议(配置SSL协议) - jimmy609的专栏 - 博客频道 - CSDN.NET
Nginx 配置 SSL 证书 + 搭建 HTTPS 网站教程 - Chen Jian - 博客园
nginx配置HTTPS - 刘勇的博客 - 博客频道 - CSDN.NET
spark 错误id意义_精品文库_IThao123 - IT行业第一站

 

170224

 

hbase region 分配方式 - 爪哇攻城师 - 博客园
ZooKeeper/FAQ - Hadoop Wiki
Curator框架 - - 博客频道 - CSDN.NET
Apache Curator Examples –
ASF Git Repos - curator.git/blob - curator-examples/src/main/java/framework/CreateClientExamples.java
zookeeper学习之三(Curator客户端) - - ITeye技术网站
Spring—Quartz定时调度CronTrigger时间配置格式说明与实例 - 每天=生命的最后一天 - 博客频道 - CSDN.NET
java日志文件log4j.properties配置详解 - 穆乙 - 博客园
log4j.properties 详解与配置步骤 - edward0830ly的专栏 - 博客频道 - CSDN.NET
zookeeper 大量连接断开重连原因排查 - hengyunabc的专栏 - 博客频道 - CSDN.NET

 

新建文件夹

 

Overview - Spark 2.1.0 Documentation
Newest 'apache-spark' Questions - Stack Overflow
hbase meta表修复 - - ITeye技术网站
Zookeeper-Zookeeper leader选举 - 横刀天笑 - 博客园
ZooKeeper原理及使用 - 就是你的博客 - 博客频道 - CSDN.NET
ZooKeeper入门简介 - houzengjiang的专栏 - 博客频道 - CSDN.NET
Zookeeper的功能以及工作原理 - FelixZh - 博客园
Hadoop及HBase使用过程中的一些问题集-FreeOA
Hadoop常见问题及解决方案 - zhaozheng7758的专栏 - 博客频道 - CSDN.NET
关于Hadoop数据块Miss在页面提示的问题 - dajuezhao的专栏 - 博客频道 - CSDN.NET
Apache HBase ™ Reference Guide
HBase最佳实践-读性能优化策略 – 有态度的HBase/Spark/BigData

 

0324

 

新建文件夹

 

Spark - 大数据挖掘SparkExpert的博客 - 博客频道 - CSDN.NET
hbase meta表修复 - u010316405的专栏 - 博客频道 - CSDN.NET
HBase hbck——检察HBase集群的一致性 - xiao_jun_0820的专栏 - 博客频道 - CSDN.NET
Hadoop:HDFS负载均衡 - 我的oracle学习之路 - 博客园
hadoop的dfs.replication和备份数问题 - lskyne的专栏 - 博客频道 - CSDN.NET
删除hbase表region块脚本 - hua840812的专栏 - 博客频道 - CSDN.NET
Java多线程-工具篇-BlockingQueue - jack.yujun - 博客园
JAVA进阶----ThreadPoolExecutor机制 - 无量的IT生活 - ITeye技术网站
ThreadPoolExecutor使用介绍 - wangwenhui11的专栏 - 博客频道 - CSDN.NET
阻塞队列BlockingQueue - linghu_java的专栏 - 博客频道 - CSDN.NET
JDK源码分析—— ArrayBlockingQueue 和 LinkedBlockingQueue - Hama White 的博客 - 博客频道 - CSDN.NET
并发队列ConcurrentLinkedQueue和阻塞队列LinkedBlockingQueue用法 - Ruthless - 博客园
Spark算子:RDD基本转换操作(6)–zip、zipPartitions - MingFei的专栏 - 博客频道 - CSDN.NET
Spark函数详解系列之RDD基本转换 - MOBIN - 博客园
Scala异常处理 - Scala教程
Spark高级 - 奇点的明天 - 博客园
SparkInternals/markdown at master · JerryLead/SparkInternals · GitHub
SparkInternals/readme.md at master · JerryLead/SparkInternals · GitHub
SparkInternals/5-Architecture.md at master · JerryLead/SparkInternals · GitHub
hadoop2集群怎么规划-大数据-about云开发
大数据架构系统部署应用介绍
大数据方案介绍_图文_百度文库
spark - 亚信联创大数据平台Li - 博客频道 - CSDN.NET
grep 排除关键字_百度搜索
grep 搜索不包含关键字的行 - StepByStepTo的专栏 - 博客频道 - CSDN.NET
replication factor: 3 larger than available brokers: 1 - 博客频道 - CSDN.NET

 

0408

 

JVM调优总结(十)-调优方法 - 和你在一起 - ITeye技术网站
JVM(Java虚拟机)优化大全和案例实战 - 碧荷故乡_胡奇的专栏 - 博客频道 - CSDN.NET

 

170421

 

JVM调优总结(十)-调优方法 - 和你在一起 - ITeye技术网站
JVM(Java虚拟机)优化大全和案例实战 - 碧荷故乡_胡奇的专栏 - 博客频道 - CSDN.NET
CoolplaySpark/1.2 DStream 生成 RDD 实例详解.md at master · lw-lin/CoolplaySpark

 

170519

 

kafka扩容节点和partitions迁移
如何移动Kafka部分分区的数据 – 过往记忆
HADOOP HDFS BALANCER介绍及经验总结-大数据学习-about云开发
kafka扩容节点和partitions迁移
java jvm 参数 -Xms -Xmx -Xmn -Xss 调优总结 - 学习笔记 - 51CTO技术博客
JVM调优总结 -Xms -Xmx -Xmn -Xss - unixboy - ITeye技术网站
JVM:垃圾回收机制和调优手段 - 一名java从业者的专栏 - 博客频道 - CSDN.NET
JVM内存模型及垃圾回收算法 - 孤剑 - 博客园
视频编解码技术简介_通识 - 研究院培训中心 - 海康威视-企业wiki平台
常用命令集合 - 海康威视研究院 - 海康威视-企业wiki平台

 

tmp

 

解决CentOS开机进度条卡死centos
CentOS启动卡在开机进度条certmonger解决方法centos
Elasticsearch创建Index--java实现 - ZK_小小世界的专栏 - 博客频道 - CSDN.NET
HDFS的dfs.replication不同验证 - 一个IT男的历程 - ITeye技术网站
maven scope含义的说明 - 雨中漫步 - 51CTO技术博客
JUnit单元测试--IntelliJ IDEA - 华行天下 - 博客园

0414

 

JVM调优之jstack找出最耗cpu的线程并定位代码 - 成风魄郎 - 博客园
Java自带的性能监测工具用法简介——jstack、jconsole、jinfo、jmap、jdb、jsta、jvisualvm - feihong247的专栏 - 博客频道 - CSDN.NET
JAVA线程dump的分析 --- jstack pid - 无线&移动互联网技术研发 - BlogJava
Kafka errors NotLeaderForPartitionException, TimeoutException: Batch containing * record(s) expired - Nothing is impossible - 博客频道 - CSDN.NET
exception handling - Can I ignore org.apache.kafka.common.errors.NotLeaderForPartitionExceptions? - Stack Overflow
[Kafka-users] Fwd: kafka.common.NotLeaderForPartitionException when 1 broker of 2 is down - Grokbase
Spark Shuffle Write阶段磁盘文件分析 - 简书
简单帅气的甘特图软件有推荐的么? - 知乎
spark 查看 job history 日志 - stark_summer的专栏 - 博客频道 - CSDN.NET
Kafka consumer fetching metadata for topics failed - Stack Overflow

Spark checkpoint

http://blog.csdn.net/ljp812184246/article/details/53897613

 

缓存有可能丢失,或者存储存储于内存的数据由于内存不足而被删除。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个Partition是相对独立的,因此只需要计算丢失的部分即可,并不需要重算全部Partition。
但是,多次迭代后数据丢失的重新计算,会影响这个效率。因此,RDD的缓存容错机制保证了即使缓存丢失也能保证快速的恢复,而不是重新计算。

checkpoint保存的目录是在HDFS目录中,保证了存储的可靠性。

sc.setCheckpointDir("hdfs://master:9000/..")//会在..目录创建一个文件夹
//对象面的rdd设置checkpoint
rdd.checkpoint
rdd.collect

checkpoint和cache一样,是transformation
当遇到action时,checkpoint会启动另一个任务,将数据切割拆分,保存到设置的checkpoint目录中。

在Spark的checkpoint源码中提到,

    1. 当使用了checkpoint后,数据被保存到HDFS,此RDD的依赖关系也会丢掉,因为数据已经持久化到硬盘,不需要重新计算。
    2. 强烈推荐先将数据持久化到内存中(cache操作),否则直接使用checkpoint会开启一个计算,浪费资源。

posted on 2017-05-26 17:07  一笑之奈何  阅读(335)  评论(0编辑  收藏  举报