随笔分类 -  crawler

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总
摘要:转载:源作者不详。下面的这些方法是可以标本兼治的:1、限制IP地址单位时间的访问次数分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。弊端:一刀切,这同样会阻止搜索引擎对网站的收录适用网站:不太依靠搜索引擎的网站采集器会怎么做:减少单位... 阅读全文

posted @ 2015-08-18 10:56 雨渐渐 阅读(604) 评论(0) 推荐(0) 编辑

工具--- base64网页解码
摘要:http://base64.xpcha.com/ 阅读全文

posted @ 2015-07-29 23:27 雨渐渐 阅读(282) 评论(0) 推荐(0) 编辑

混乱的url编码||URL编码解码问题
摘要:转载自:http://www.ruanyifeng.com/blog/2010/02/url_encoding.html一。问题的由来。url就是网址,只要上网就一定会用到。一般来说,URL只能使用英文字母,阿拉伯数字和某些标点符号,不能使用其他文字和符号。比如,世界上有英文字母的网址,http:/... 阅读全文

posted @ 2015-06-15 11:32 雨渐渐 阅读(788) 评论(0) 推荐(0) 编辑

rabbitmq 测试
摘要:用消息队列更多的是解服务之间的调用关系,调用关系异步化。把控制关系/拓扑结构放出来。# --*-- coding:utf-8 --*--import pikaimport datetimeconnection = pika.BlockingConnection(pika.ConnectionPara... 阅读全文

posted @ 2014-09-03 11:16 雨渐渐 阅读(141) 评论(0) 推荐(0) 编辑

asp.net viewstate的模拟登陆
摘要:其实 VIEWSTATE 不用太在意,倒是 JTCookieID 需要注意,这个才应该是服务器上用来维护 Session 的那个 Cookie。所以,你用 httpclient 的时候,不能上来就直接发到“POST /PersonLogin.aspx”上,因为那样的话,服务器上还没有建立一个有效的 ... 阅读全文

posted @ 2014-06-19 14:48 雨渐渐 阅读(1772) 评论(0) 推荐(0) 编辑

python 处理cookie简单很多啊 httpclient版本是4.3.3
摘要:模拟登录流程:1 请求host_url2 从host_url中解析出 隐藏表单 的值 添加到POST_DATA中3 添加账户,密码到POST_DATA中4 编码后,发送POST请求 要点1:java下,HttpClient必须是单例模式 要点2:post的url可能跟登录界面的url不同。post_... 阅读全文

posted @ 2014-06-05 18:38 雨渐渐 阅读(1693) 评论(0) 推荐(0) 编辑

Html Meta 标签详解
摘要:http://www.dreamdu.com/xhtml/tag_meta/ 阅读全文

posted @ 2013-12-31 16:09 雨渐渐 阅读(128) 评论(0) 推荐(0) 编辑

基于行块分布函数的正文抽取
摘要:如果无法FQ获取最新版:百度网盘下载:(各种语言版本及算法说明)链接:http://pan.baidu.com/s/1c0ImY7e 密码:tcr6基于行块分布函数的正文抽取算法思路:1、预处理:剔除网页HTML标签,去掉所有的空白符(\n,\r,\t等);2、依据"\n"分行,若某文字行的上下存在... 阅读全文

posted @ 2013-12-31 11:40 雨渐渐 阅读(1190) 评论(0) 推荐(0) 编辑

java版 正文抽取 基于文字连接比
摘要:package cn.tdt.crawl.jdbc;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import ... 阅读全文

posted @ 2013-08-16 13:46 雨渐渐 阅读(1651) 评论(0) 推荐(0) 编辑

网络爬虫速成指南 (三) 编码识别
摘要:问题的提出:采用上节的方法偶尔会下载到的HTML乱码,原因是上节的代码中进行了简易的编码识别,比如根据头信息,根据meta中的charset:。即使这样也会遇到下载到乱码的情况,原因是这两者提供的charset都可能不准确。解决方案:1 手动指定编码2 自动识别编码如果只采一个网站,自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐 阅读(717) 评论(0) 推荐(0) 编辑

post方式发微博
摘要:使用post方式实现微博的发送request和post需要用到的参数如下:rnd:当前时间减去1970.01.01,时间差转换为毫秒mid:微博iduid:当前登录的用户idcid:当前评论idouid:当前评论内容的博主用户idstatus_owner_user:不清楚,随便一个值就可以retcode:验证码正确返回的retcode内容ts:发送验证码需要的参数一. 评论1. RequestUrl:请求链接http://weibo.com/aj/comment/add?_wv=5&__rnd=13590198299892. post参数:act=post&mid=34888. 阅读全文

posted @ 2013-02-04 00:25 雨渐渐 阅读(2517) 评论(2) 推荐(1) 编辑

WebRequest 超时不起作用
摘要://WebRequest request = WebRequest.Create(uri); HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(uri); //request.Timeout = Timeout.Infinite; request.Timeout = 20000; //request.AllowAutoRedirect = true; //reques... 阅读全文

posted @ 2013-01-11 15:13 雨渐渐 阅读(8591) 评论(0) 推荐(2) 编辑

c#图片下载的标准写法
摘要:MemoryStream的介绍:http://www.cnblogs.com/JimmyZheng/archive/2012/04/14/2446507.html bitmap.Save(strOutputPathJpg, System.Drawing.Imaging.ImageForm... 阅读全文

posted @ 2013-01-11 12:59 雨渐渐 阅读(1103) 评论(0) 推荐(0) 编辑

Webbrowser与HtmlAgility的结合
摘要:神,这么复杂的标题~~ HtmlAgilityPack.HtmlDocument htmlDocument = new HtmlAgilityPack.HtmlDocument(); mshtml.HTMLDocument htmldocument = (mshtml.HTMLDocument)webBrowser.Document.DomDocument; string temp = htmldocument.documentElement.outerHTML; byte[] buffer = Encod... 阅读全文

posted @ 2013-01-09 10:41 雨渐渐 阅读(405) 评论(0) 推荐(0) 编辑

字符集与字符编码
摘要:字节:8个二进制位代表一个字节字符:'a' 'b' 'c' '/' 代表字符 我们输入一个字符,计算机不认识,所以必须转换成二进制字符是用字节表示的。那么问题来了?一个字符用多少个自己表示呢?ASCII码。它是一种把英文字符转换为计算机内 码的编码方式,它使用一个字节来存储一个字符。ANSI编... 阅读全文

posted @ 2013-01-08 17:11 雨渐渐 阅读(174) 评论(0) 推荐(0) 编辑

HttpClient
摘要:private static void getHttpClient(String url) { /* 1 构造HttpClient的实例 */ HttpClient httpClient = new HttpClient(); /* 2 生成 GetMethod 对象并设置参数 */ GetMethod getMethod = new GetMethod(url); // 设置请求重试处理,用的是默认的重试处理:请求三次 getMethod.getParams().setParameter(HttpMethod... 阅读全文

posted @ 2013-01-07 10:15 雨渐渐 阅读(334) 评论(0) 推荐(0) 编辑

java获取网络时间
摘要:try { URL url = new URL("http://www.bjtime.cn");// 取得资源对象 URLConnection uc = url.openConnection();// 生成连接对象 uc.connect(); // 发出连接 long ld = uc.getDate(); // 取得网站日期时间 Date date = new Date(ld); // 转换为标准时间对象 Calendar calendar = Calendar.getInstance(); calendar.setTime(date); int... 阅读全文

posted @ 2013-01-03 01:01 雨渐渐 阅读(725) 评论(0) 推荐(0) 编辑

网络爬虫速成指南 (四) URL判重
摘要:如果采集量比较小:布隆过滤器详解原理如果采集量比较大:redis:主要是把URL转为md5,作为key来进行判重关于布隆过滤器器的参数说明,简单点说:private static BloomFilter bloomFilter = new BloomFilter(2X, X);这样用就可以了附:布隆... 阅读全文

posted @ 2012-12-14 15:39 雨渐渐 阅读(1007) 评论(0) 推荐(0) 编辑

java 格式化字符串
摘要:使用http://joda-time.sourceforge.net/:import java.util.Date;import org.joda.time.DateTime;import org.joda.time.format.DateTimeFormat;import org.joda.tim... 阅读全文

posted @ 2012-12-09 16:56 雨渐渐 阅读(616) 评论(0) 推荐(0) 编辑

java url 解码 编码 奇怪的解码两次
摘要:String city="北京市"; String code_1= URLEncoder.encode(city, "utf-8"); System.out.println(code_1); String code_2= U... 阅读全文

posted @ 2012-09-05 11:57 雨渐渐 阅读(442) 评论(0) 推荐(0) 编辑

导航