随笔分类 -  数据挖掘

上一页 1 ··· 26 27 28 29 30
摘要:接上一篇Kafka的安装与实验: http://www.cnblogs.com/charlesblc/p/6046023.html 还有再上一篇Flume的安装与实验: http://www.cnblogs.com/charlesblc/p/6046023.html Storm的安装可以参考这篇: 阅读全文
posted @ 2016-11-10 13:25 blcblc 阅读(2142) 评论(0) 推荐(0) 编辑
摘要:接上面一篇文章: http://www.cnblogs.com/charlesblc/p/6038112.html 主要参考这篇文章: http://www.open-open.com/lib/view/open1435884136903.html 还有之前一直在跟的这篇文章: http://blo 阅读全文
posted @ 2016-11-09 10:37 blcblc 阅读(11368) 评论(1) 推荐(0) 编辑
摘要:之前学习过RabbitMQ,并且还安装过。安装记录的文章如下: Erlang:http://www.cnblogs.com/charlesblc/p/5512380.html RabbitMQ:http://www.cnblogs.com/charlesblc/p/5516585.html 可见,好 阅读全文
posted @ 2016-11-07 11:35 blcblc 阅读(380) 评论(0) 推荐(0) 编辑
摘要:正在学习这篇文章: http://blog.csdn.net/ymh198816/article/details/51998085 和工作中接触的电商、订单、分析,可以结合起来。 开宗明义,这幅图片: Strom是一个非常快的实时计算框架,至于快到什么程度呢? 准备实际写一个实时分析系统。不然纸上得 阅读全文
posted @ 2016-11-07 11:28 blcblc 阅读(2052) 评论(0) 推荐(0) 编辑
摘要:http://harry.me/blog/2014/12/27/neat-algorithms-paxos/ 这篇文章里面有用JS写的Paxos过程,有助理解。但是没怎么仔细看,没时间。 这篇文章用两军问题来讨论Paxos,也很有意思: http://iunknown.iteye.com/blog/ 阅读全文
posted @ 2016-11-07 10:59 blcblc 阅读(5329) 评论(0) 推荐(0) 编辑
摘要:Paxos,一言以蔽之,我们需要一种提交协议来确保分布式系统中的全局操作即使是在发生故障的情况下也能保证正确性。 跟拜占庭将军问题是不同的问题,虽然拜占庭也是Lamport提出的。拜占庭里面有叛徒,有坏人,而Paxos里面都是好人,都是期望达成一致的,只是有时候有故障或者有同步问题。要说有联系,那就 阅读全文
posted @ 2016-11-07 00:16 blcblc 阅读(1298) 评论(0) 推荐(0) 编辑
摘要:参考这篇文章: http://www.yeeach.com/post/591 在Memcached、Key-Value Store、Bittorrent DHT、LVS中都采用了Consistent Hashing算法,可以说Consistent Hashing 是分布式系统负载均衡的首选算法。 由 阅读全文
posted @ 2016-11-05 16:02 blcblc 阅读(1032) 评论(0) 推荐(0) 编辑
摘要:之前的文章已经介绍了搭建单机Hadoop, HBase, Hive, Spark的方式:link 现在希望在单机的基础上,加一个slave。 首先需要加上信任关系,加信任关系的方式,见前一篇文章:link 把05和06这两台机器,分别和对方添加上信任关系。 把05上面的目录 /home/work/d 阅读全文
posted @ 2016-11-04 13:56 blcblc 阅读(2816) 评论(0) 推荐(0) 编辑
摘要:学习参考这篇文章: http://www.shareditor.com/blogshow/?blogId=96 机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统, hadoop用于分布式存储和map-reduce计算, spark用于分布式机器学习, hive是分布式数据库, hbase 阅读全文
posted @ 2016-10-30 21:47 blcblc 阅读(7469) 评论(1) 推荐(0) 编辑
摘要:实验一下Lucene是怎么使用的。 参考:http://www.importnew.com/12715.html (例子比较简单) http://www.yiibai.com/lucene/lucene_first_application.html (例子比较复杂) 这里也有一个例子:http:// 阅读全文
posted @ 2016-10-20 13:29 blcblc 阅读(628) 评论(0) 推荐(0) 编辑
摘要:看了这篇文章很好,有很多指导性思想: http://www.cnblogs.com/tornadomeet/p/3395593.html 另外这个人的系列文章里面也有很多干货。 就看这个系列的吧: http://blog.csdn.net/yaoqiang2011/article/category/ 阅读全文
posted @ 2016-10-12 22:17 blcblc 阅读(184) 评论(0) 推荐(0) 编辑
摘要:今天看github排名,看到排在第二位的是免费书籍: https://github.com/vhf/free-programming-books/blob/master/free-programming-books-zh.md 上面的url是中文书籍。很不错。有时间的话一定多看看。 在这里可以看到g 阅读全文
posted @ 2016-10-12 14:49 blcblc 阅读(492) 评论(0) 推荐(0) 编辑
摘要:关于项目,我出两个练手题目: 一、多机数据处理。有 10 台机器,每台机器上保存着 10 亿个 64-bit 整数(不一定刚好 10 亿个,可能有上下几千万的浮动),一共约 100 亿个整数(其实一共也就 80GB 数据,不算大,选这个量级是考虑了 VPS 虚拟机的容量,便于实验)。编程求出: 1. 阅读全文
posted @ 2016-10-02 03:11 blcblc 阅读(379) 评论(0) 推荐(0) 编辑
摘要:优秀大数据GitHub项目一览 http://blog.csdn.net/YaoXTao/article/details/50540485 阅读全文
posted @ 2016-09-29 01:12 blcblc 阅读(1348) 评论(0) 推荐(0) 编辑
摘要:有一篇文章讲得相当不错: http://www.cnblogs.com/tornadomeet/p/3395593.html 另外其中提到的龙星计划里面有一些不错的课件,可以参考: http://52opencourse.com/373/2012%E9%BE%99%E6%98%9F%E8%AE%A1 阅读全文
posted @ 2016-06-05 19:45 blcblc 阅读(482) 评论(0) 推荐(0) 编辑

上一页 1 ··· 26 27 28 29 30
点击右上角即可分享
微信分享提示