架构 - 随笔分类 - lanceyan

数据挖掘-分词入门

摘要：谷歌4亿英镑收购人工智能公司DeepMind，百度目前正推进“百度大脑”项目，腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生，硬件速度上升、成本降低，大数据技术的落地实现，让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术，不过买来的数据挖掘书籍一打开全是... 阅读全文

posted @ 2014-09-16 09:01 lanceyan 阅读(332) 评论(0) 推荐(0)

摘要：按照上一节中《搭建高可用mongodb集群（三）—— 深入副本集》搭建后还有两个问题没有解决：从节点每个上面的数据都是对数据库全量拷贝，从节点压力会不会过大？数据压力大到机器支撑不了的时候能否做到自动扩展？在系统早期，数据量还小的时候不会引起太大的问题，但是随着数据量持续增多，后续迟早会出现一台机器硬件瓶颈问题的。而mongodb主打的就是海量数据架构，他不能解决海量数据怎么行！不行！“分片”就用这个来解决这个问题。传统数据库怎么做海量数据读写？其实一句话概括：分而治之。上图看看就清楚了，如下 taobao岳旭强在infoq中提到的架构图：上图中有个TDDL，是taobao的一个数据访问层组阅读全文

posted @ 2014-03-31 09:42 lanceyan 阅读(1802) 评论(9) 推荐(11)

搭建高可用mongodb集群（三）—— 深入副本集内部机制

摘要：在上一篇文章《搭建高可用mongodb集群（二）—— 副本集》介绍了副本集的配置，这篇文章深入研究一下副本集的内部机制。还是带着副本集的问题来看吧！副本集故障转移，主节点是如何选举的？能否手动干涉下架某一台主节点。官方说副本集数量最好是奇数，为什么？mongodb副本集是如何同步的？如果同步不及时会出现什么情况？会不会出现不一致性？mongodb的故障转移会不会无故自动发生？什么条件会触发？频繁触发可能会带来系统负载加重？Bully算法mongodb副本集故障转移功能得益于它的选举机制。选举机制采用了Bully算法，可以很方便从分布式节点中选出主节点。一个分布式集群架构中一般都有一个所谓的主节阅读全文

posted @ 2014-02-18 13:41 lanceyan 阅读(1973) 评论(2) 推荐(6)

海量数据相似度计算之simhash短文本查找

摘要：在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢，还在秒级别。给大家算一笔账就知道了：随着业务增长需要一个小时处理100w次，一个小时为3600 *1000 = 360w毫秒，计算一下一次相似度比较最多只能消耗 360w / 100w = 3.6毫阅读全文

posted @ 2013-09-09 07:32 lanceyan 阅读(1463) 评论(5) 推荐(2)

海量数据相似度计算之simhash和海明距离

摘要：通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代阅读全文

posted @ 2013-08-26 07:30 lanceyan 阅读(2358) 评论(5) 推荐(7)

实战低成本服务器搭建千万级数据采集系统

摘要：上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社会化采集系统架构，讲架构一般都比较虚，这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。有这样一个采集系统的需求，达成指标：需要采集30万关键词的数据、微博必须在一个小时采集到、覆盖四大微博（新浪微博、腾讯微博、网易微博、搜狐微博）。为了节约客户成本，硬件为普通服务器：E5200 双核 2.5G cpu， 4 G DDR3 1333内存，硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标？当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下如何阅读全文

posted @ 2013-08-06 08:52 lanceyan 阅读(4128) 评论(24) 推荐(5)

社会化海量数据采集爬虫框架搭建

摘要：随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏览器，输入网址url访问页面内容。2、复制页面内容的标题、作者、内容。3、存储到文本文件或者excel。从技术角度来说整个过程主要为网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。123456789101112131415161718192021222324252627 阅读全文

posted @ 2013-07-26 09:21 lanceyan 阅读(3899) 评论(11) 推荐(12)

实战做项目如何选择开源许可协议（一）-了解协议

摘要：目前国内开源项目正在逐渐升温，中国也开始有不少优秀的开源项目突显出来。在大家摩拳擦掌准备加入开源大军时，也要知道这个圈子里的规则。技术人员不能只是研究技术，任何圈子都有规则，要知道了才能玩得好。前段时间有件关于开源软件的事情挺热闹的，关于国内一个开发者把自己作品开源出来被别的公司的人拿去包装成自己的产品高价卖出去。大部分做开源软件的开发者都不太怎么关注版权这些，具体微博如下：hoowa_sun：做开源后，发现大部分都被别人拿去学习，然后copy，然后自己闭源卖出去。这里不缺乏大公司，有一家公司拿我的开源系统修改后卖给了一个国内的运营商，卖的还非常贵至少几十万一套。所以我郑重的建议大家，做软件还阅读全文

posted @ 2013-07-05 10:00 lanceyan 阅读(1842) 评论(6) 推荐(6)

JAVA线程池管理及分布式HADOOP调度框架搭建

摘要：平时的开发中线程是个少不了的东西，比如tomcat里的servlet就是线程，没有线程我们如何提供多用户访问呢？不过很多刚开始接触线程的开发攻城师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发，这确实是个比较难搞的工程。那具体什么是线程呢？首先看看进程是什么，进程就是系统中执行的一个程序，这个程序可以使用内存、处理器、文件系统等相关资源。例如QQ软件、eclipse、tomcat等就是一个exe程序，运行启动起来就是一个进程。为什么需要多线程？如果每个进程都是单独处理一件事情不能多个任务同时处理，比如我们打开qq只能和一个人聊天，我们用eclip 阅读全文

posted @ 2013-05-23 10:46 lanceyan 阅读(1834) 评论(3) 推荐(0)

一致性hash和solr千万级数据分布式搜索引擎中的应用

摘要：互联网创业中大部分人都是草根创业，这个时候没有强劲的服务器，也没有钱去买很昂贵的海量数据库。在这样严峻的条件下，一批又一批的创业者从创业中获得成功，这个和当前的开源技术、海量数据架构有着必不可分的关系。比如我们使用mysql、nginx等开源软件，通过架构和低成本服务器也可以搭建千万级用户访问量的系统。新浪微博、淘宝网、腾讯等大型互联网公司都使用了很多开源免费系统搭建了他们的平台。所以，用什么没关系，只要能够在合理的情况下采用合理的解决方案。那怎么搭建一个好的系统架构呢？这个话题太大，这里主要说一下数据分流的方式。比如我们的数据库服务器只能存储200个数据，突然要搞一个活动预估达到600个数据阅读全文

posted @ 2013-05-13 09:13 lanceyan 阅读(3400) 评论(5) 推荐(10)

lanceyan

随笔分类 - 架构