diyihua

scrapy相关

摘要：下面是些处理这些站点的建议(tips):使用user agent池，轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考COOKIES_ENABLED)，有些站点会使用cookies来发现爬虫的轨迹。设置下载延迟(2或更... 阅读全文

posted @ 2015-06-10 10:46 diyihua 阅读(128) 评论(0) 推荐(0)

scapy安装

摘要： http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html（转载地址）Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra... 阅读全文

posted @ 2015-05-04 10:43 diyihua 阅读(497) 评论(0) 推荐(0)

solr配置方案

摘要： http://www.sjsjw.com/kf_cloud/article/44_5945_1823.aspCentOS下用Tomcat+Zookeeper+Nginx+Solr完美搭建SolrCloud平台（一）http://www.656463.com/article/3AzeQf.htmsol... 阅读全文

posted @ 2015-05-01 23:28 diyihua 阅读(111) 评论(0) 推荐(0)

solr schema.xml

摘要： http://blog.csdn.net/escaflone/article/details/5726320(转载)现在我们开始研究载入的数据部分（importing data）在正式开始前，我们先介绍一个存储了大量音乐媒体的网站http://musicbrainz.org，这里的数据都是免费的，一... 阅读全文

posted @ 2015-05-01 20:59 diyihua 阅读(204) 评论(0) 推荐(0)

不错的技术博客借鉴

摘要： http://my.oschina.net/jerrysearch/ 讲述了storm 和一个作者实现的zkconfigutil开源项目阅读全文

posted @ 2015-04-22 10:06 diyihua 阅读(86) 评论(0) 推荐(0)

sql导入

摘要： mysql -u root -p --default-character-set=utf8 database<e:\XX.sql mysql -u root -p --default-character-set=utf8 database<e:\XX.sql load data local infi... 阅读全文

posted @ 2015-04-21 22:56 diyihua 阅读(95) 评论(0) 推荐(0)

python多线程

摘要：转自http://segmentfault.com/a/1190000000414339map 这一小巧精致的函数是简捷实现 Python 程序并行化的关键。map 源于 Lisp 这类函数式编程语言。它可以通过一个序列实现两个函数之间的映射。 urls = ['http://www.yaho... 阅读全文

posted @ 2015-04-08 18:00 diyihua 阅读(400) 评论(0) 推荐(0)

用汉明距离进行图片相似度检测的Java实现

摘要：根据Neal Krawetz博士的解释，原理非常简单易懂。我们可以用一个快速算法，就达到基本的效果。这里的关键技术叫做"感知哈希算法"（Perceptual hash algorithm），它的作用是对每张图片生成一个"指纹"（fingerprint）字符串，然后比较不同图片的指纹。结果越接近，就说... 阅读全文

posted @ 2015-03-13 13:59 diyihua 阅读(851) 评论(1) 推荐(0)

大数据文本相似去重方案

摘要：转载自http://blog.jobbole.com/46839/和http://blog.jobbole.com/47748/，原作者严澜（@观澜而索源）通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算... 阅读全文

posted @ 2015-03-13 12:26 diyihua 阅读(950) 评论(0) 推荐(0)