scrapy相关

摘要: 下面是些处理这些站点的建议(tips):使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考COOKIES_ENABLED),有些站点会使用cookies来发现爬虫的轨迹。设置下载延迟(2或更... 阅读全文
posted @ 2015-06-10 10:46 diyihua 阅读(122) 评论(0) 推荐(0) 编辑

scapy安装

摘要: http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html(转载地址)Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra... 阅读全文
posted @ 2015-05-04 10:43 diyihua 阅读(454) 评论(0) 推荐(0) 编辑

solr配置方案

摘要: http://www.sjsjw.com/kf_cloud/article/44_5945_1823.aspCentOS下用Tomcat+Zookeeper+Nginx+Solr完美搭建SolrCloud平台(一)http://www.656463.com/article/3AzeQf.htmsol... 阅读全文
posted @ 2015-05-01 23:28 diyihua 阅读(104) 评论(0) 推荐(0) 编辑

solr schema.xml

摘要: http://blog.csdn.net/escaflone/article/details/5726320(转载)现在我们开始研究载入的数据部分(importing data)在正式开始前,我们先介绍一个存储了大量音乐媒体的网站http://musicbrainz.org,这里的数据都是免费的,一... 阅读全文
posted @ 2015-05-01 20:59 diyihua 阅读(195) 评论(0) 推荐(0) 编辑

不错的技术博客借鉴

摘要: http://my.oschina.net/jerrysearch/ 讲述了storm 和一个作者实现的zkconfigutil开源项目 阅读全文
posted @ 2015-04-22 10:06 diyihua 阅读(80) 评论(0) 推荐(0) 编辑

sql导入

摘要: mysql -u root -p --default-character-set=utf8 database<e:\XX.sql mysql -u root -p --default-character-set=utf8 database<e:\XX.sql load data local infi... 阅读全文
posted @ 2015-04-21 22:56 diyihua 阅读(87) 评论(0) 推荐(0) 编辑

python多线程

摘要: 转自http://segmentfault.com/a/1190000000414339map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。 urls = ['http://www.yaho... 阅读全文
posted @ 2015-04-08 18:00 diyihua 阅读(391) 评论(0) 推荐(0) 编辑

用汉明距离进行图片相似度检测的Java实现

摘要: 根据Neal Krawetz博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。这里的关键技术叫做"感知哈希算法"(Perceptual hash algorithm),它的作用是对每张图片生成一个"指纹"(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说... 阅读全文
posted @ 2015-03-13 13:59 diyihua 阅读(779) 评论(1) 推荐(0) 编辑

大数据文本相似去重方案

摘要: 转载自http://blog.jobbole.com/46839/和http://blog.jobbole.com/47748/,原作者严澜(@观澜而索源)通过采集系统我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算... 阅读全文
posted @ 2015-03-13 12:26 diyihua 阅读(870) 评论(0) 推荐(0) 编辑