随笔分类 -  采集

php 使用curl模拟登录人人(校内)网
摘要:$login_url = 'http://passport.renren.com/PLogin.do';$post_fields['email'] = 'XXXX';$post_fields['password'] = 'XXXX';$post_fields['origURL'] = 'http%3A%2F%2Fhome.renren.com%2FHome.do';$post_fields['domain'] = 'renren.com';//cook 阅读全文

posted @ 2013-07-23 15:57 与时俱进 阅读(868) 评论(1) 推荐(1) 编辑

网页分页数据的三种抓取方式
摘要:相信所有个人网站的站长都有抓取别人数据的经历吧,目前抓取别人网站数据的方式无非两种方式: 一、使用第三方工具,其中最著名的是火车头采集器,在此不做介绍。 二、自己写程序抓取,这种方式要求站长自己写程序,可能对对站长的开发能力有所要求了。 本人起初也曾试着用第三方的工具抓取我所需要的数据,由于网上的流行的第三方工具不是不符合我的要求,就是过于复杂,我一时没有搞明白怎么用,后来索性决定自己写吧,现在本人基本上半天可以搞定一个网站(只是程序开发时间,不包括数据抓取的时间)。 经过一段时间的数据抓取生涯,也曾遇到了很多困难,其中最常见的一个就是关于分页数据的抓取问题,原因在于分数据分页的形... 阅读全文

posted @ 2011-11-30 10:13 与时俱进 阅读(4602) 评论(0) 推荐(1) 编辑

.NET 网站自动登录
摘要:首先,我们先定义一些变量:C# codeprivate const string NET_SESSIONID= "ASP.NET_SessionId=";private const string CLIENTKEY = "ClientKey=";string aspcookie = "";private string html = "";private string sessionId = "";private string clientKey = "";private st 阅读全文

posted @ 2011-11-29 11:03 与时俱进 阅读(3231) 评论(0) 推荐(2) 编辑

C#一个到多个Cookie的字符串添加到CookieCollection集合中【isGood代码】
摘要:C#一个到多个Cookie的字符串添加到CookieCollection集合中多个站点(Domain)与多个路径(Path)与多个Cookie名(c.name)的字符要添加到CookieCollection集合中在网上找不到可行的方法,isGood用一天写出的添加到CookieCollection集合中多用代码:/// <summary>/// 一个到多个Cookie的字符串添加到CookieCollection集合中【isGood代码】/// </summary>/// <param name="s">Cookie的字符串</pa 阅读全文

posted @ 2011-11-29 11:02 与时俱进 阅读(4052) 评论(0) 推荐(0) 编辑

Js采集代码
摘要:<script language="javascript"><!--function GetBody(URL){var http=new ActiveXObject("Microsoft.XMLHTTP");http.open("GET",URL,false,"","");http.setRequestHeader("CONTENT-TYPE","text/html; Charset=gb2312");http.send();if (ht 阅读全文

posted @ 2011-08-02 22:05 与时俱进 阅读(3388) 评论(0) 推荐(0) 编辑

网络蜘蛛(网络爬虫)核心C#源代码
摘要:网络蜘蛛或爬虫需要能够下载网页、图片(流)以及登录的Cookies等信息,以下的C#代码是比较实用的核心程序。using System;using System.Collections.Generic;using System.Text;using System.IO;using System.IO.Compression;using System.Xml;using System.Web;using System.Collections;using System.Runtime.InteropServices;using System.Net;using System.Net.Securit 阅读全文

posted @ 2011-03-08 10:28 与时俱进 阅读(8440) 评论(7) 推荐(0) 编辑

用C#写ASP.NET搜索蜘蛛代码程序
摘要:protected bool robot() { bool brtn = false; string king_robots = "Baiduspider+@Baidu|Googlebot@Google|ia_archiver@Alexa|IAArchiver@Alexa|ASPSeek@ASPSeek|YahooSeeker@Yahoo|sohu-search@Sohu|help.yahoo.com/help/us/ysearch/slurp@Yahoo|sohu-search@SOHU|MSNBOT@MSN"; string ls_spr; ls_spr=Request 阅读全文

posted @ 2011-03-08 10:23 与时俱进 阅读(1608) 评论(0) 推荐(0) 编辑

httpwebrequest 模拟登录 获取cookies 以前的代码,记录备忘!
摘要:2个类,一个基类,一个构建头信息调用类关于如何获取到post中的内容,你之需要用http抓包工具把你与目标网站的请求信息抓下来后,打开分析下按照抓下来的包中的数据进行构建就行了using System;using System.Collections.Generic;using System.Text;using System.Net;using System.IO;namespace bot{ public class Html { /// /// httpwebrequest类中的一些属性的集合 /// public struct RequestPPT { private string s 阅读全文

posted @ 2010-12-14 18:45 与时俱进 阅读(4657) 评论(0) 推荐(0) 编辑

C#模拟登录总结
摘要:///summary登录////summary///paramname="url"/param///paramname="paramList"/param///returns/returnspublicstaticstringLogin(Stringurl,StringparamList){HttpWebResponseres=null;stringstrResult="";try{HttpWebRequestreq=(HttpWebRequest)WebRequest.Create(url);req.Method="POST";req.ContentType= 阅读全文

posted @ 2010-12-13 18:19 与时俱进 阅读(540) 评论(0) 推荐(0) 编辑

C#简单模拟用户登录类
摘要:为了实现模拟用户登录,忙活了两天了,先说一下我吃亏的地方。没有去深入理解,思维太单一。还是在此先感谢参考文章的作者!毕业论文要涉及到一个论坛采集系统,由于现在很多的论坛都要登录才能访问,具体说,我要实现的系统要登录一个网络课程的论坛,具体的页面没有帐号是不能访问的。注:这里针对的是没有验证码的网站,以后有时间的话会把这个问题解决一下,不多说了,直接贴代码了:程序结构:class PostGetWebRequest方法:PostWebRequest、GetWebRequest();要登录的网站的login.htmhtmlheadtitle/title/headbodyf 阅读全文

posted @ 2010-12-13 18:16 与时俱进 阅读(3262) 评论(4) 推荐(1) 编辑

C#版采集程序源码介绍
摘要:因为工作需要,自己写了一个采集程序,如果冒犯了你的网站,我在这里说一声对不起 !!  哎~!我只是一个普通的程序员.  namespace CJ  {   public partial class Form1 : Form   {   public int proxy = 0;   public int keyi = 0;   public int keyj = 0;   public int keym = 0;   public int keyn = 0;   public int sum = 0;   public string newurl = "";   public string c 阅读全文

posted @ 2010-12-13 18:08 与时俱进 阅读(2102) 评论(2) 推荐(3) 编辑

C#模拟Post和Get方式发送数据的技巧
摘要:通过应用程序读取网页信息的时候,通常需要抓取网页的数据,但是有一个问题就是很多网页需要登录后才能够获得页面数据,那么就需要保存当前的cookie,在.NET中可以使用CookieContainer 对象来保存登录后的Cookie信息,每次发送数据的时候加上Cookie信息,就可以解决这个问题了。 #region 同步通过POST方式发送数据 /// summary /// 通过POST方式发送数据 /// /summary /// param name="Url"url/param /// param name="postDataStr"Post数据/param // 阅读全文

posted @ 2010-12-13 18:02 与时俱进 阅读(2940) 评论(0) 推荐(1) 编辑

如何截取Http请求
摘要:1:前言 本篇文章比较短,主要是因为我的一个随想产生的一段代码。 这段代码的功能你可以叫做是简单的Http服务器也可以叫做Http请求截取。它实现的功能就是截取Http请求然后自己做处理。2:代码代码publicclassHttpServer:IDisposable{privateHttpListenerlistener;publicvoidStart(){listener=newHttpList... 阅读全文

posted @ 2010-06-24 10:25 与时俱进 阅读(5610) 评论(0) 推荐(0) 编辑

非常经典的网络蜘蛛示例
摘要:以前写了篇“百度视频采集"的思路简介,看到唯一一个人留言希望我总结一下新闻采集。今天就拿博客园的热门文章采集做个例子。说明前我得声明一点,经过在 博客园混了几个月后,发现博客园首页发布的文章一般都是高手,很有参考价值。可我是一个新手,我请大家此文章的任何质疑直接留言,因为您发现问题不说出 来,可能我永远会认为自己写的是正确的。 下面进入正题。首先需要注意的是采集网页上数据的唯一方式是必... 阅读全文

posted @ 2010-02-23 09:59 与时俱进 阅读(709) 评论(1) 推荐(0) 编辑

如何用C#语言构造webspider
摘要:是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户 用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛程序到 底是怎样工作的呢? 蜘蛛是一种半自动的程序,就象现实当中的蜘蛛在它的Web(蜘蛛网)上旅行... 阅读全文

posted @ 2010-02-23 09:53 与时俱进 阅读(990) 评论(0) 推荐(0) 编辑

用C#2.0实现网络蜘蛛(WebSpider)
摘要:摘要:本文讨论了如何使用C#2.0实现抓取网络资源的网络蜘蛛。使用这个程序,可以通过一个入口网址(如 http://www.comprg.com.cn)来扫描整个互联网的网址,并将这些扫描到的网址所指向的网络资源下载到本地。然后可以利用其他的分析 工具对这些网络资源做进一步地分析,如提取关键词、分类索引等。也可以将这些网络资源作为数据源来实现象Google一样的搜索引擎。关键 词:C#2.0,Ht... 阅读全文

posted @ 2010-02-23 09:52 与时俱进 阅读(703) 评论(0) 推荐(0) 编辑

两个获取http页面的c#函数
摘要:一个用C#写的windows应用程序,作用嘛,就是对asp程序已知的20种漏洞进行扫描,显示源程序。在这个应用程序中用到两种获得http页面的方 法,一种是直接用httpwebrequest类,而另一种是同服务器通过tcp/ip建立socket连接,直接查询端口80 , 为此我写了以下两个函数,第一个比较简单,参数只有一个,就是要求的url , 另外一个比较复杂,也很通用,不仅可以请求http... 阅读全文

posted @ 2010-02-23 09:48 与时俱进 阅读(307) 评论(0) 推荐(0) 编辑

防止网站内容被人小偷和采集的ASP代码
摘要:<%Dim AppealNum,AppealCountAppealNum=10 '同一IP60秒内请求限制10次AppealCount=Request.Cookies("AppealCount")If AppealCount="" Thenresponse.Cookies("AppealCount")=1AppealCount=1response.cookies("AppealCount")... 阅读全文

posted @ 2010-02-22 22:02 与时俱进 阅读(274) 评论(0) 推荐(0) 编辑

asp采集程序类
摘要:'=================================================='函数名:GetHttpPage'作 用:获取网页源码'参 数:HttpUrl ——网页地址'==================================================Function GetHttpPage(HttpUrl)If IsNull(H... 阅读全文

posted @ 2010-02-22 22:00 与时俱进 阅读(317) 评论(0) 推荐(0) 编辑

C# .net 采集类
摘要:using System; using System.Collections.Generic; using System.Text; using System.Diagnostics; using System.Text.RegularExpressions; using System.IO; using System.Net; namespace Capture { class Progra... 阅读全文

posted @ 2009-11-25 08:46 与时俱进 阅读(1056) 评论(1) 推荐(0) 编辑

友情链接:同里老宅院民居客栈