jmmchina

2017年4月11日

摘要：上一节，大概讲述了Python 爬虫的编写流程，从这节开始主要解决如何突破在爬取的过程中限制。比如，IP、JS、验证码等。这节主要讲利用IP代理突破。 1.关于代理简单的说，代理就是换个身份。网络中的身份之一就是IP。比如，我们身在墙内，想要访问google、u2b、fb等，直接访问是404，所阅读全文

posted @ 2017-04-11 11:08 jmmchina 阅读(398) 评论(0) 推荐(0) 编辑

Python3中使用urllib的方法详解(header,代理,超时,认证,异常处理)_python

摘要：我们可以利用urllib来抓取远程的数据进行保存哦，以下是python3 抓取网页资源的多种方法，有需要的可以参考借鉴。 1、最简单 1 import urllib.request 2 response = urllib.request.urlopen('http://python.org/') 3 阅读全文

posted @ 2017-04-11 11:07 jmmchina 阅读(411) 评论(0) 推荐(0) 编辑

Python爬虫库-Beautiful Soup的使用

摘要： Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。如在上一篇文章通过爬虫爬取漫画图片，获取信息纯粹用正则表达式进行处理，这种方式即复杂，代码的可阅读性也低。通过Beauti 阅读全文

posted @ 2017-04-11 11:04 jmmchina 阅读(432) 评论(0) 推荐(0) 编辑

python使用代理访问服务器

摘要： python使用代理访问服务器主要有一下3个步骤： 1.创建一个代理处理器ProxyHandler： proxy_support = urllib.request.ProxyHandler()，ProxyHandler是一个类，其参数是一个字典：{ '类型':'代理ip:端口号'} 什么是Handl 阅读全文

posted @ 2017-04-11 10:58 jmmchina 阅读(8717) 评论(0) 推荐(0) 编辑

【已解决】python中文字符乱码（GB2312，GBK，GB18030相关的问题）

摘要： http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 【已解决】python中文字符乱码（GB2312，GBK，GB18030相关的问题）【背景】在玩wordpress的一个博客搬家工具BlogMover，其阅读全文

posted @ 2017-04-11 10:56 jmmchina 阅读(3255) 评论(0) 推荐(0) 编辑

用Python解析HTML，BeautifulSoup使用简介

摘要： Beautiful Soup，字面意思是美好的汤，是一个用于解析HTML文件的Python库。主页在http://www.crummy.com/software/BeautifulSoup/ ，下载与安装无需啰嗦，这里就介绍一下它的使用吧。装汤——Making the Soup 首先要把待解析的阅读全文

posted @ 2017-04-11 10:54 jmmchina 阅读(585) 评论(0) 推荐(0) 编辑

urllib.error.HTTPError: HTTP Error 403: Forbidden

摘要：问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403: Forbidden"异常例如执行下面的语句时 [python] <span style="font-s 阅读全文

posted @ 2017-04-11 10:53 jmmchina 阅读(6581) 评论(0) 推荐(0) 编辑

定向爬虫 - Python模拟新浪微博登录

摘要：阅读目录一.抓包利器Fiddler 二.Cookies与保持登录三.Cookies模拟登录四.使用 Post 提交数据的方法实现模拟登录当我们试图从新浪微博抓取数据时，我们会发现网页上提示未登录，无法查看其他用户的信息。模拟登录是定向爬虫制作中一个必须克服的问题，只有这样才能爬取到更多的内阅读全文

posted @ 2017-04-11 10:51 jmmchina 阅读(5846) 评论(0) 推荐(0) 编辑

模拟新浪微博登录：从原理分析到实现

摘要：上一篇文章小试牛刀：使用Python模拟登录知乎介绍了如何模拟知乎登录，虽然用到了验证码信息，但请求的参数都是原封不动的传递，刚开始接触的时候，觉得难度适中，回头再看的时候，反而感觉挺容易的。在这篇文章，将继续介绍模拟登录。与之前不一样的是，这次选择的对象是新浪微博，难度稍微提升了点，好在以往的许多阅读全文

posted @ 2017-04-11 10:25 jmmchina 阅读(9571) 评论(2) 推荐(1) 编辑

python模拟登录的实现

摘要：本文主要用python实现了对网站的模拟登录。通过自己构造post数据来用Python实现登录过程。当你要模拟登录一个网站时，首先要搞清楚网站的登录处理细节（发了什么样的数据，给谁发等...）。我是通过HTTPfox来抓取http数据包来分析该网站的登录流程。同时，我们还要分析抓到的post包的数阅读全文

posted @ 2017-04-11 10:19 jmmchina 阅读(894) 评论(0) 推荐(0) 编辑

公告