摘要:
经过各种搜索及自己的试验,决定后面做防采集通过混用以下方法来解决,当然采集是无法完全防止的,只能是尽量减少。
基本方法如下 阅读全文
摘要:
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。
不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。
这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。 阅读全文
摘要:
有做过IP归属地查询功能的朋友应该都有听说过纯真IP库,若你仅需要根据IP搜索出用户的归属地文字然后显示出来,只要按照该IP库的规则进行二分查找并显示就OK了。
但如果你需要根据IP获取归属地文字描述,然后进一步与自己已有的行政地区数据表关联起来该如何处理呢? 阅读全文
摘要:
才开始看python,而且只看了一小部分,没有进入实际开发,但是他却已经征服了我,难怪连Eric S. Raymond都说python是他最喜欢的语言。
本文为个人感觉python很帅气的地方,纯属碎碎念,老鸟可忽略。 阅读全文
摘要:
看完前言中所说的一些内容后,各位应该对PHP扩展开发有个笼统的了解了,可能有些人会觉得开发扩展很麻烦很复杂,实际上并非如此,这一篇我们就快速进入角色,开发出我们的第一个扩展。 阅读全文
摘要:
开发PHP扩展已经有一段时间了,一边学习一边开发和总结,累并快乐着。
本着好记性不如烂笔头的原则,决定将开发过程一些问题写出来,抛砖引玉,共同进步。
因个人水平及文字表达能力所限,难免有错漏,欢迎指出,不胜感激!
本系列都是在Linux下进行开发,不涉及windows下的开发。 阅读全文
摘要:
日常编程中,对于一些有一定并发量或数据量较高的数据库操作,我们都会在前端加一层缓存层,并设置失效时间,现在一般是mongoDB或memcached, 阅读全文
摘要:
一般来说,一个项目中总是会有一些较难处理的业务,比如业务复杂花样繁多的搜索,使用搜索系统如sphinx,lucence等来处理的话,数据源的若是变化过快(如顶、踩、浏览数之类),则首先推数据的频率就较难衡量,另外无法精确搜索或排序。所以一般情况下的做法是通过DB进行搜索,并且除了尽量将业务分解到程序层面外,还会在DB前加一层cache。但是这样做也有不少已知的弊端:
1、实际上很多业务无法放到普通的PHP中处理,如一些较复杂的排序、筛选,通过普通的PHP来实现的话效率还不如MYSQL。
2、cache的命中率也不好保证,特别是对一些使用关键词进行查询的业务,关键词变化太多。 阅读全文