风中小郎君

导航

文章分类 -  java网页抓取

1 2 下一页

包括Jsoup详解和httpclient详解
session与cookie的区别
摘要:大家都知道,session是存储在服务器端的,cookie是存储在客户端的,session依赖于cookie,但是让你说详细点,你会吗?我是不太清楚的,特意在网上找了很多资料,发现一篇不错的文章,特整理归纳在此,供有需要的朋友查看。具体来说cookie机制采用的是在客户端保持状态的方案。它是在用户端... 阅读全文

posted @ 2015-05-08 13:02 风中小郎君 阅读(111) 评论(0) 推荐(0)

cookie和session
摘要:一、cookie机制和session机制的区别具体来说cookie机制采用的是在客户端保持状态的方案,而session机制采用的是在服务器端保持状态的方案。同时我们也看到,由于才服务器端保持状态的方案在客户端也需要保存一个标识,所以session机制可能需要借助于cookie机制来达到保存标识的目的... 阅读全文

posted @ 2015-05-08 12:58 风中小郎君 阅读(118) 评论(0) 推荐(0)

java cookie 详解
摘要:一.什么是cookies?大家都知道,浏览器与WEB服务器之间是使用HTTP协议进行通信的,当某个用户发出页面请求时,WEB服务器只是简单的进行响应,然后就关闭与该用户的连接。因此当一个请求发送到WEB服务器时,无论其是否是第一次来访,服务器都会把它当作第一次来对待,这样的不好之处可想而知。为了弥补... 阅读全文

posted @ 2015-05-08 12:55 风中小郎君 阅读(283) 评论(0) 推荐(0)

java发送Cookies登陆信息
摘要:package com.ui.deployuitest1;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;impo... 阅读全文

posted @ 2015-05-08 11:55 风中小郎君 阅读(152) 评论(0) 推荐(0)

【已解决】Python中实现带Cookie的Http的Post请求
摘要:已经实现了如何获得对应的cookie,具体参考:【已解决】Python中如何获得访问网页所返回的cookie现在想要把已获得cookie,在http的提交post请求的时候,也同时发送过去。即,实现带cookie的http的post。【解决过程】1.看了这里http://www.ideawu.net... 阅读全文

posted @ 2015-05-08 11:02 风中小郎君 阅读(930) 评论(0) 推荐(0)

【已解决】Python中如何获得访问网页所返回的cookie
摘要:用Python脚本模拟登陆百度空间。需要先获得最开始登陆的百度空间网页所返回的cookie。【解决过程】1.搜了一番,最后参考这个:利用Python抓取需要登录网站的信息实现了对应的代码:loginUrl = "http://hi.baidu.com/motionhouse";cj = cookie... 阅读全文

posted @ 2015-05-08 11:00 风中小郎君 阅读(1014) 评论(0) 推荐(0)

【教程】模拟登陆网站 之 Python版(内含两种版本的完整的可运行的代码)
摘要:之前已经介绍过了网络相关的一些基础知识了:【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项以及,简单的网页内容抓取,用Python是如何实现的:【教程】抓取网并提取网页中所需要的信息 之 Python版现在接着来介绍,如何通过Python来实现基本的模拟网站登陆的流程。不过,此... 阅读全文

posted @ 2015-05-08 10:57 风中小郎君 阅读(198) 评论(0) 推荐(0)

【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
摘要:重要提示:1.此贴,以后不再更新;2.想要看更新的内容,请移至:详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等)【前提】想要实现使用某种语言,比如Python,C#等,去实现模拟登陆网站的话,首先要做的事情就是使用某种工具,去分析本身使用浏览器去登陆网页的时候,其内部的执行过... 阅读全文

posted @ 2015-05-08 10:48 风中小郎君 阅读(563) 评论(0) 推荐(0)

【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
摘要:看此文之前,(强烈建议)先去看:如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站然后,才明白,此文的作用和产生的背景。其中,本文的部分内容,也会在上述帖子,给出额外链接,其中有更详细的解释的。之前折腾了两个东西:BlogsToWordPress – 将百度空间,网易163... 阅读全文

posted @ 2015-05-08 10:36 风中小郎君 阅读(253) 评论(0) 推荐(0)

【教程】如何抓取动态网页内容
摘要:背景很多时候,很多人,需要去抓取网页中某些特定内容。但是,除了之前介绍过的,想要提取某些,静态网页,中的特定内容,比如:【教程】抓取网并提取网页中所需要的信息 之 Python版和【教程】抓取网并提取网页中所需要的信息 之 C#版之外,有些人会发现,对于其所要抓取网页中的内容,网页源码中却没有。所以... 阅读全文

posted @ 2015-05-08 10:32 风中小郎君 阅读(943) 评论(0) 推荐(0)

jsoup实现java抓取网页内容
摘要:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:1. 从一个URL,文件或字符串中解析HTML;2. 使用DOM或CSS选择器来查找... 阅读全文

posted @ 2015-05-07 22:37 风中小郎君 阅读(577) 评论(0) 推荐(0)

网页验证码的基本原理、常见漏洞及解决方法
摘要:验证码的原理其实比较简单,一般都是链到一个动态页面,然后后台服务器生成一个随机数,利用这个随机数映射一张图片,最后将这张图片返回客户,同时将这个随机数保存起来,当用户提交验证码时检测填写的验证码是否和这个随机数相同。这里我想重点说三点,这三点处理不好都可能被破解者利用。一是随机数的生成,二是随机数和... 阅读全文

posted @ 2015-05-07 18:43 风中小郎君 阅读(1667) 评论(0) 推荐(0)

实用网页抓取
摘要:本文主要介绍如何抓取网页中的内容、如何解决乱码问题、如何解决登录问题以及对所采集的数据进行处理显示的过程。效果如下所示1、下载网页并加载至HtmlAgilityPack 这里主要用WebClient类的DownloadString方法和HtmlAgilityPack中HtmlDocument类... 阅读全文

posted @ 2015-05-07 18:35 风中小郎君 阅读(158) 评论(0) 推荐(0)

java使用https通信认证问题解决方法 (post发送json数据 )
摘要:packagecom.saygou.weixin;importjava.io.ByteArrayOutputStream;importjava.io.DataOutputStream;importjava.io.IOException;importjava.io.InputStream;import... 阅读全文

posted @ 2015-05-05 11:10 风中小郎君 阅读(388) 评论(0) 推荐(0)

HttpClient使用详解
摘要:Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,增加了易用性和灵活性(具体区别,日后我们再讨论),它不仅是客户端发送Http请求变得容易,而且也方便了开发人员测试接口(基于Http协议的),即提高了开发的效率,也方便提高代码的健壮性。因此熟练... 阅读全文

posted @ 2015-04-27 21:52 风中小郎君 阅读(170) 评论(0) 推荐(0)

HttpClient_4 用法 由HttpClient_3 升级到 HttpClient_4 必看
摘要:HttpClient程序包是一个实现了 HTTP 协议的客户端编程工具包,要想熟练的掌握它,必须熟悉 HTTP协议。一个最简单的调用如下:import java.io.IOException;import org.apache.http.HttpResponse;import org.apache.... 阅读全文

posted @ 2015-04-27 21:51 风中小郎君 阅读(119) 评论(0) 推荐(0)

HttpClient 教程 (六)
摘要:第六章 高级主题6.1 自定义客户端连接在特定条件下,也许需要来定制HTTP报文通过线路传递,越过了可能使用的HTTP参数来处理非标准不兼容行为的方式。比如,对于Web爬虫,它可能需要强制HttpClient接受格式错误的响应头部信息,来抢救报文的内容。通常插入一个自定义的报文解析器的过程或定制连接... 阅读全文

posted @ 2015-04-27 21:50 风中小郎君 阅读(100) 评论(0) 推荐(0)

HttpClient 教程 (五)
摘要:第五章 HTTP客户端服务5.1 HttpClient门面HttpClient接口代表了最重要的HTTP请求执行的契约。它没有在请求执行处理上强加限制或特殊细节,而在连接管理,状态管理,认证和处理重定向到具体实现上留下了细节。这应该使得很容易使用额外的功能,比如响应内容缓存来装饰接口。Default... 阅读全文

posted @ 2015-04-27 21:49 风中小郎君 阅读(141) 评论(0) 推荐(0)

HttpClient 教程 (四)
摘要:第四章 HTTP认证HttpClient提供对由HTTP标准规范定义的认证模式的完全支持。HttpClient的认证框架可以扩展支持非标准的认证模式,比如NTLM和SPNEGO。4.1 用户凭证任何用户身份验证的过程都需要一组可以用于建立用户身份的凭据。用户凭证的最简单的形式可以仅仅是用户名/密码对... 阅读全文

posted @ 2015-04-27 21:48 风中小郎君 阅读(138) 评论(0) 推荐(0)

HttpClient 教程 (三)
摘要:第三章 HTTP状态管理原始的HTTP是被设计为无状态的,面向请求/响应的协议,没有特殊规定有状态的,贯穿一些逻辑相关的请求/响应交换的会话。由于HTTP协议变得越来越普及和受欢迎,越来越多的从前没有打算使用它的系统也开始为应用程序来使用它,比如作为电子商务应用程序的传输方式。因此,支持状态管理就变... 阅读全文

posted @ 2015-04-27 21:47 风中小郎君 阅读(134) 评论(0) 推荐(0)

1 2 下一页