摘要: 自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲。 尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整理,主要是针对TridentTopology部分,修改过的内容采用pdf格式发布,方便打印。 文章中有些内容的理解得益于徐明明和fxjwind两位的指点,非常感谢。 阅读全文
posted @ 2014-05-28 13:12 徽沪一郎 阅读(7250) 评论(4) 推荐(8) 编辑
摘要: Spark Elasticsearch 阅读全文
posted @ 2020-12-22 16:23 徽沪一郎 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 分布式分析引擎和分布式存储结合是一种趋势也是种必然,SQL依然是事实上的标准,在NewSQL时代成功完成王者归来。 阅读全文
posted @ 2017-12-28 14:57 徽沪一郎 阅读(588) 评论(0) 推荐(0) 编辑
摘要: elasticsearch性能调优是一个长期的过程,本文记录了一些常用设置,涉及到linux系统参数设置,elasticsearch启动参数,index mapping的配置,较为全面。 阅读全文
posted @ 2016-10-31 11:33 徽沪一郎 阅读(11190) 评论(1) 推荐(5) 编辑
摘要: OLAP在大数据时代的挑战 阅读全文
posted @ 2016-07-21 20:14 徽沪一郎 阅读(1392) 评论(0) 推荐(0) 编辑
摘要: elasticsearch搜索功能强劲,就是查询语法复杂,presto提供了非常open的plugin机制,我改进了下原有的presto-elasticsearch connector,现发布于github 阅读全文
posted @ 2016-07-01 09:58 徽沪一郎 阅读(5341) 评论(2) 推荐(0) 编辑
摘要: 用于生产的elasticsearch集群规划建议 阅读全文
posted @ 2016-04-09 21:06 徽沪一郎 阅读(3036) 评论(0) 推荐(0) 编辑
摘要: 开始Apache Flink的流数据处理学习 阅读全文
posted @ 2016-01-31 14:42 徽沪一郎 阅读(2206) 评论(0) 推荐(0) 编辑
摘要: 在elasticsearch-hadoop的具体使用中碰到了几个问题,有必要记录一下,避免下次遇到时又要重新研究。 阅读全文
posted @ 2016-01-07 15:26 徽沪一郎 阅读(7997) 评论(0) 推荐(0) 编辑
摘要: Elasticsearch节点重启引起的数据分片的重分布,如何尽可能的避免和减少这种操作带来的额外开销是本文探讨的问题所在。 阅读全文
posted @ 2015-11-24 10:19 徽沪一郎 阅读(8569) 评论(0) 推荐(0) 编辑
摘要: 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。 阅读全文
posted @ 2015-04-13 22:18 徽沪一郎 阅读(4445) 评论(1) 推荐(0) 编辑