摘要:
1、廖雪峰的官方网站 http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386818214042e9c46552422e42d8a00f019e088506ce000 2、An 阅读全文
摘要:
之前写过模拟登录新浪微博的帖子,然而我并没有去爬过微博的数据,觉得有点浪费,于是就想写一个代码来发微博。写完之后觉得如果能自动发微博就好了,但是我又不可能24小时开始(晚上12点后还会断网),也没有vps(穷学生狗),找过几个免费vps未果,然后想到之前用过新浪SAE,就想能不能在上面试试。 试了一 阅读全文
摘要:
python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案: 前几天使用python读取网页。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request.read( 阅读全文
摘要:
最近无聊,想玩玩微信的公众平台,后来发现乐趣无穷啊~ 使用的工具,python 新浪SAE平台,微信的公众平台 你需要先在微信的公众平台与新浪SAE平台上各种注册,微信平台注册的时候需要你拍张手持身份证的照片,还有几天的审核期 微信公众平台:http://mp.weixin.qq.com 新浪SAE 阅读全文
摘要:
方法/步骤 先配置一下数据库: define("DB_HOST","localhost");//数据库地址,一般为localhost define("DB_USER","root");//数据库用户名 define("DB_PSW","");//数据库密码 define("DB_DB","datab 阅读全文
摘要:
原文: http://blog.csdn.net/21aspnet/article/details/6801206 http://www.jb51.net/article/14668.htm 阅读全文
摘要:
以下代码是PHP分页案例,测试通过,主要是PHP+mysql实现分页,代码来处百度空间,有兴趣看的话可以了解一下PHP是如何分页的? 阅读全文
摘要:
上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要讲利用IP代理突破。 1.关于代理 简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所 阅读全文
摘要:
我们可以利用urllib来抓取远程的数据进行保存哦,以下是python3 抓取网页资源的多种方法,有需要的可以参考借鉴。 1、最简单 1 import urllib.request 2 response = urllib.request.urlopen('http://python.org/') 3 阅读全文
摘要:
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。 如在上一篇文章通过爬虫爬取漫画图片,获取信息纯粹用正则表达式进行处理,这种方式即复杂,代码的可阅读性也低。通过Beauti 阅读全文
摘要:
python使用代理访问服务器主要有一下3个步骤: 1.创建一个代理处理器ProxyHandler: proxy_support = urllib.request.ProxyHandler(),ProxyHandler是一个类,其参数是一个字典:{ '类型':'代理ip:端口号'} 什么是Handl 阅读全文
摘要:
http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 【已解决】python中文字符乱码(GB2312,GBK,GB18030相关的问题) 【背景】 在玩wordpress的一个博客搬家工具BlogMover,其 阅读全文
摘要:
Beautiful Soup,字面意思是美好的汤,是一个用于解析HTML文件的Python库。主页在http://www.crummy.com/software/BeautifulSoup/ , 下载与安装无需啰嗦,这里就介绍一下它的使用吧。 装汤——Making the Soup 首先要把待解析的 阅读全文
摘要:
问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403: Forbidden"异常 例如 执行下面的语句时 [python] <span style="font-s 阅读全文
摘要:
阅读目录 一.抓包利器Fiddler 二.Cookies与保持登录 三.Cookies模拟登录 四.使用 Post 提交数据的方法实现模拟登录 当我们试图从新浪微博抓取数据时,我们会发现网页上提示未登录,无法查看其他用户的信息。 模拟登录是定向爬虫制作中一个必须克服的问题,只有这样才能爬取到更多的内 阅读全文
摘要:
上一篇文章小试牛刀:使用Python模拟登录知乎介绍了如何模拟知乎登录,虽然用到了验证码信息,但请求的参数都是原封不动的传递,刚开始接触的时候,觉得难度适中,回头再看的时候,反而感觉挺容易的。在这篇文章,将继续介绍模拟登录。与之前不一样的是,这次选择的对象是新浪微博,难度稍微提升了点,好在以往的许多 阅读全文
摘要:
本文主要用python实现了对网站的模拟登录。通过自己构造post数据来用Python实现登录过程。 当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...)。我是通过HTTPfox来抓取http数据包来分析该网站的登录流程。同时,我们还要分析抓到的post包的数 阅读全文
摘要:
With语句是什么? Python’s with statement provides a very convenient way of dealing with the situation where you have to do a setup and teardown to make some 阅读全文
摘要:
本文主要讲解了python中Template使用方法以及使用技巧,非常实用,有需要的朋友可以参考下: Template无疑是一个好东西,可以将字符串的格式固定下来,重复利用。同时Template也可以让开发人员可以分别考虑字符串的格式和其内容了,无形中减轻了开发人员的压力。 Template属于st 阅读全文
摘要:
前言 书中使用的是python3,我这里使用的是python2.7 Web 的目录树 webapp/ ├── cgi-bin │ ├── athletelist.py │ ├── athletemodel.py │ ├── generate_list.py │ └── yate.py ├── coa 阅读全文