crawler - 随笔分类 - 雨渐渐

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

摘要：转载：源作者不详。下面的这些方法是可以标本兼治的：1、限制IP地址单位时间的访问次数分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。弊端：一刀切，这同样会阻止搜索引擎对网站的收录适用网站：不太依靠搜索引擎的网站采集器会怎么做：减少单位... 阅读全文

posted @ 2015-08-18 10:56 雨渐渐阅读(604) 评论(0) 推荐(0) 编辑

工具--- base64网页解码

摘要：http://base64.xpcha.com/ 阅读全文

posted @ 2015-07-29 23:27 雨渐渐阅读(282) 评论(0) 推荐(0) 编辑

混乱的url编码||URL编码解码问题

摘要：转载自：http://www.ruanyifeng.com/blog/2010/02/url_encoding.html一。问题的由来。url就是网址，只要上网就一定会用到。一般来说，URL只能使用英文字母，阿拉伯数字和某些标点符号，不能使用其他文字和符号。比如，世界上有英文字母的网址，http:/... 阅读全文

posted @ 2015-06-15 11:32 雨渐渐阅读(788) 评论(0) 推荐(0) 编辑

rabbitmq 测试

摘要：用消息队列更多的是解服务之间的调用关系，调用关系异步化。把控制关系/拓扑结构放出来。# --*-- coding:utf-8 --*--import pikaimport datetimeconnection = pika.BlockingConnection(pika.ConnectionPara... 阅读全文

posted @ 2014-09-03 11:16 雨渐渐阅读(141) 评论(0) 推荐(0) 编辑

asp.net viewstate的模拟登陆

摘要：其实 VIEWSTATE 不用太在意，倒是 JTCookieID 需要注意，这个才应该是服务器上用来维护 Session 的那个 Cookie。所以，你用 httpclient 的时候，不能上来就直接发到“POST /PersonLogin.aspx”上，因为那样的话，服务器上还没有建立一个有效的 ... 阅读全文

posted @ 2014-06-19 14:48 雨渐渐阅读(1772) 评论(0) 推荐(0) 编辑

python 处理cookie简单很多啊 httpclient版本是4.3.3

摘要：模拟登录流程：1 请求host_url2 从host_url中解析出隐藏表单的值添加到POST_DATA中3 添加账户，密码到POST_DATA中4 编码后，发送POST请求要点1：java下，HttpClient必须是单例模式要点2：post的url可能跟登录界面的url不同。post_... 阅读全文

posted @ 2014-06-05 18:38 雨渐渐阅读(1693) 评论(0) 推荐(0) 编辑

Html Meta 标签详解

摘要：http://www.dreamdu.com/xhtml/tag_meta/ 阅读全文

posted @ 2013-12-31 16:09 雨渐渐阅读(128) 评论(0) 推荐(0) 编辑

基于行块分布函数的正文抽取

摘要：如果无法FQ获取最新版：百度网盘下载：（各种语言版本及算法说明）链接：http://pan.baidu.com/s/1c0ImY7e 密码：tcr6基于行块分布函数的正文抽取算法思路：1、预处理：剔除网页HTML标签，去掉所有的空白符（\n,\r,\t等）；2、依据"\n"分行，若某文字行的上下存在... 阅读全文

posted @ 2013-12-31 11:40 雨渐渐阅读(1190) 评论(0) 推荐(0) 编辑

java版正文抽取基于文字连接比

摘要：package cn.tdt.crawl.jdbc;import java.util.regex.Matcher;import java.util.regex.Pattern;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import ... 阅读全文

posted @ 2013-08-16 13:46 雨渐渐阅读(1651) 评论(0) 推荐(0) 编辑

网络爬虫速成指南（三）编码识别

摘要：问题的提出：采用上节的方法偶尔会下载到的HTML乱码，原因是上节的代码中进行了简易的编码识别，比如根据头信息，根据meta中的charset：。即使这样也会遇到下载到乱码的情况，原因是这两者提供的charset都可能不准确。解决方案：1 手动指定编码2 自动识别编码如果只采一个网站，自己指定下编码就... 阅读全文

posted @ 2013-08-13 14:35 雨渐渐阅读(717) 评论(0) 推荐(0) 编辑

摘要：使用post方式实现微博的发送request和post需要用到的参数如下：rnd：当前时间减去1970.01.01，时间差转换为毫秒mid：微博iduid：当前登录的用户idcid：当前评论idouid：当前评论内容的博主用户idstatus_owner_user：不清楚，随便一个值就可以retcode：验证码正确返回的retcode内容ts：发送验证码需要的参数一. 评论1. RequestUrl：请求链接http://weibo.com/aj/comment/add?_wv=5&__rnd=13590198299892. post参数：act=post&mid=34888. 阅读全文

posted @ 2013-02-04 00:25 雨渐渐阅读(2517) 评论(2) 推荐(1) 编辑

WebRequest 超时不起作用

摘要：//WebRequest request = WebRequest.Create(uri); HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(uri); //request.Timeout = Timeout.Infinite; request.Timeout = 20000; //request.AllowAutoRedirect = true; //reques... 阅读全文

posted @ 2013-01-11 15:13 雨渐渐阅读(8591) 评论(0) 推荐(2) 编辑

c#图片下载的标准写法

摘要：MemoryStream的介绍：http://www.cnblogs.com/JimmyZheng/archive/2012/04/14/2446507.html bitmap.Save(strOutputPathJpg, System.Drawing.Imaging.ImageForm... 阅读全文

posted @ 2013-01-11 12:59 雨渐渐阅读(1103) 评论(0) 推荐(0) 编辑

Webbrowser与HtmlAgility的结合

摘要：神，这么复杂的标题~~ HtmlAgilityPack.HtmlDocument htmlDocument = new HtmlAgilityPack.HtmlDocument(); mshtml.HTMLDocument htmldocument = (mshtml.HTMLDocument)webBrowser.Document.DomDocument; string temp = htmldocument.documentElement.outerHTML; byte[] buffer = Encod... 阅读全文

posted @ 2013-01-09 10:41 雨渐渐阅读(405) 评论(0) 推荐(0) 编辑

字符集与字符编码

摘要：字节：8个二进制位代表一个字节字符：'a' 'b' 'c' '/' 代表字符我们输入一个字符，计算机不认识，所以必须转换成二进制字符是用字节表示的。那么问题来了？一个字符用多少个自己表示呢？ASCII码。它是一种把英文字符转换为计算机内码的编码方式，它使用一个字节来存储一个字符。ANSI编... 阅读全文

posted @ 2013-01-08 17:11 雨渐渐阅读(174) 评论(0) 推荐(0) 编辑

HttpClient

摘要：private static void getHttpClient(String url) { /* 1 构造HttpClient的实例 */ HttpClient httpClient = new HttpClient(); /* 2 生成 GetMethod 对象并设置参数 */ GetMethod getMethod = new GetMethod(url); // 设置请求重试处理，用的是默认的重试处理：请求三次 getMethod.getParams().setParameter(HttpMethod... 阅读全文

posted @ 2013-01-07 10:15 雨渐渐阅读(334) 评论(0) 推荐(0) 编辑

java获取网络时间

摘要：try { URL url = new URL("http://www.bjtime.cn");// 取得资源对象 URLConnection uc = url.openConnection();// 生成连接对象 uc.connect(); // 发出连接 long ld = uc.getDate(); // 取得网站日期时间 Date date = new Date(ld); // 转换为标准时间对象 Calendar calendar = Calendar.getInstance(); calendar.setTime(date); int... 阅读全文

posted @ 2013-01-03 01:01 雨渐渐阅读(725) 评论(0) 推荐(0) 编辑

雨渐渐

随笔分类 - crawler