Mingz2013 - 博客园

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）

摘要：对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过 Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中，我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中，我们将论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。一、从HTML文档中提取链接 Python语言还有一个非常有用的模块HTMLParser，... 阅读全文

posted @ 2013-07-24 10:27 Mingz2013 阅读(228) 评论(0) 推荐(0) 编辑

Scrapy 轻松定制网络爬虫

摘要：网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息；又比如一些别有用心的爬虫会在 Internet 上搜集诸如 foo@bar.com 或者 foo [at] bar [dot] com 之类的东西。除此之外，还有一些定制的爬虫，专门针对某一个网站，例如前一阵子 JavaEye 的 Robbin 就写了阅读全文

posted @ 2013-07-24 10:25 Mingz2013 阅读(176) 评论(0) 推荐(0) 编辑

python访问抓取网页常用命令（保存图片到本地、模拟POST、GET、中文编码问题）(转)

摘要：简单的抓取网页:import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read() 直接将URL保存为本地文件：import urllib.request url="http://www.xxxx.com/1.jpg"urllib.request.urlretrieve(url,r"d:\temp\1.jpg")POST方式：import urllib.parse import ur 阅读全文

posted @ 2013-07-24 10:24 Mingz2013 阅读(239) 评论(0) 推荐(0) 编辑

Python实现Discuz论坛的自动POST登录发贴回帖（转）

摘要： #-*-coding:utf-8-*-import urllib2, urllib, cookielibimport reimport getpassimport sqlite3import randomimport time class Discuz: def__init__(self,user,pwd,args): self.username = user self.password = pwd self.args = args self.regex = { 'loginreg':'', ... 阅读全文

posted @ 2013-07-24 10:23 Mingz2013 阅读(1463) 评论(0) 推荐(0) 编辑

用python知道URL地址提取链接中的域名与端口

摘要： import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host, port = urllib.splitport(host) if port is None: port =80 print port 阅读全文

posted @ 2013-07-24 10:21 Mingz2013 阅读(511) 评论(0) 推荐(0) 编辑

关于抓取网页，分析网页内容，模拟登陆网站的逻辑/流程和注意事项（转）

摘要：抓取网页的一般逻辑和过程一般普通用户，用浏览器，打开某个URL地址，然后浏览器就可以显示出对应的页面的内容了。这个过程，如果用程序代码来实现，就可以被称为（用程序实现）抓取网页（的内容，并进行后期处理，提取所需信息等）对应的英文说法有，website crawl/scrape/data mining。而用来抓取网页的工具，也常被叫做 spider，crawler等。即，一般所谓的取网页内容，指的是通过程序（某种语言的程序代码，比如Python脚本语言，C#语言等）实现访问某个URL地址，然后获得其所返回的内容（HTML源码，Json格式的字符串等）。而对于这个抓取网页的过程，是有一套自己的逻辑阅读全文

posted @ 2013-07-24 10:20 Mingz2013 阅读(253) 评论(0) 推荐(0) 编辑

[Python脚本]Admin Finder管理后台扫描工具

摘要：本文转自：http://www.freebuf.com/tools/3503.html刚刚使用这个博客，人家别的博客有个代码框，里面是写的代码，俺还不知道咋使用呢，只能这样先凑合一下了#Created for coded32 and his teamopenfire Eliminated Some bugs from my last code shared here as Guest.#Greets To T.O.F and Indishell#Thanks friends for find bugs and give suggetions#cd direcory/to/code#direco 阅读全文

posted @ 2013-07-24 10:18 Mingz2013 阅读(292) 评论(0) 推荐(0) 编辑

python 爬虫程序详解

摘要： #!/usr/bin/python 使用魔法字符调用python23 from sys import argv 导入sys是导入python解释器和他环境相关的参数4 from os import makedirs,unlink,sepos主要提供对系统路径，文件重命名和删除文件所需的函数makedirs是创建递归文件夹的函数。比如说我们要创建一个新的目录，/python/HTML/crawl,但是目前这三个文件夹都不存在，如果使用mkdir命令的话需要使用三次才能完成，但是使用os.makedir只需使用一次就可以创建好整个目录。os.makedirs(os.path.join(os.erv 阅读全文

posted @ 2013-07-13 23:02 Mingz2013 阅读(298) 评论(0) 推荐(0) 编辑

Python写的简易采集爬虫(蜘蛛)

摘要： #!/usr/bin/python#-*-coding:utf-8-*-# 简易采集爬虫# 1.采集Yahoo!Answers，parseData函数修改一下，可以采集任何网站# 2.需要sqlite3或者pysqlite支持# 3.可以在DreamHost.com空间上面运行# 4.可以修改User-Agent冒充搜索引擎蜘蛛# 5.可以设置暂停的时间，控制采集速度# 6.采集Yahoo会被封IP数小时，所以这个采集用处不大# Author: Lukin# Date : 2008-09-25# 导入采集需要用到的模块import re, sys, timeimport httplib, os 阅读全文

posted @ 2013-07-13 23:00 Mingz2013 阅读(410) 评论(0) 推荐(0) 编辑

Mingz技术博客

导航

公告