Mingz技术博客

...

导航

上一页 1 ··· 4 5 6 7 8

2013年7月24日 #

使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)(转)

摘要: 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开 位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的 内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。 一、从HTML文档中提取链接 Python语言还有一个非常有用的模块HTMLParser,... 阅读全文

posted @ 2013-07-24 10:27 Mingz2013 阅读(228) 评论(0) 推荐(0) 编辑

Scrapy 轻松定制网络爬虫

摘要: 网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬, 而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息;又比如一些别有用心的爬虫会在 Internet 上搜集诸如 foo@bar.com 或者 foo [at] bar [dot] com 之类的东西。除此之外,还有一些定制的爬虫,专门针对某一个网站,例如前一阵子 JavaEye 的 Robbin 就写了 阅读全文

posted @ 2013-07-24 10:25 Mingz2013 阅读(176) 评论(0) 推荐(0) 编辑

python访问抓取网页常用命令(保存图片到本地、模拟POST、GET、中文编码问题)(转)

摘要: 简单的抓取网页:import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象page=response.read() 直接将URL保存为本地文件:import urllib.request url="http://www.xxxx.com/1.jpg"urllib.request.urlretrieve(url,r"d:\temp\1.jpg")POST方式:import urllib.parse import ur 阅读全文

posted @ 2013-07-24 10:24 Mingz2013 阅读(239) 评论(0) 推荐(0) 编辑

Python实现Discuz论坛的自动POST登录发贴回帖(转)

摘要: #-*-coding:utf-8-*-import urllib2, urllib, cookielibimport reimport getpassimport sqlite3import randomimport time class Discuz: def__init__(self,user,pwd,args): self.username = user self.password = pwd self.args = args self.regex = { 'loginreg':'', ... 阅读全文

posted @ 2013-07-24 10:23 Mingz2013 阅读(1463) 评论(0) 推荐(0) 编辑

用python知道URL地址提取链接中的域名与端口

摘要: import urllib proto, rest = urllib.splittype("http://www.baidu.com/11/12.htm") host, rest = urllib.splithost(rest) print host host, port = urllib.splitport(host) if port is None: port =80 print port 阅读全文

posted @ 2013-07-24 10:21 Mingz2013 阅读(511) 评论(0) 推荐(0) 编辑

关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项(转)

摘要: 抓取网页的一般逻辑和过程一般普通用户,用浏览器,打开某个URL地址,然后浏览器就可以显示出对应的页面的内容了。这个过程,如果用程序代码来实现,就可以被称为(用程序实现)抓取网页(的内容,并进行后期处理,提取所需信息等)对应的英文说法有,website crawl/scrape/data mining。而用来抓取网页的工具,也常被叫做 spider,crawler等。即,一般所谓的取网页内容,指的是通过程序(某种语言的程序代码,比如Python脚本语言,C#语言等)实现访问某个URL地址,然后获得其所返回的内容(HTML源码,Json格式的字符串等)。而对于这个抓取网页的过程,是有一套自己的逻辑 阅读全文

posted @ 2013-07-24 10:20 Mingz2013 阅读(253) 评论(0) 推荐(0) 编辑

[Python脚本]Admin Finder管理后台扫描工具

摘要: 本文转自:http://www.freebuf.com/tools/3503.html刚刚使用这个博客,人家别的博客有个代码框,里面是写的代码,俺还不知道咋使用呢,只能这样先凑合一下了#Created for coded32 and his teamopenfire Eliminated Some bugs from my last code shared here as Guest.#Greets To T.O.F and Indishell#Thanks friends for find bugs and give suggetions#cd direcory/to/code#direco 阅读全文

posted @ 2013-07-24 10:18 Mingz2013 阅读(292) 评论(0) 推荐(0) 编辑

2013年7月13日 #

python 爬虫程序详解

摘要: #!/usr/bin/python 使用魔法字符调用python23 from sys import argv 导入sys是导入python解释器和他环境相关的参数4 from os import makedirs,unlink,sepos主要提供对系统路径,文件重命名和删除文件所需的函数makedirs是创建递归文件夹的函数。比如说我们要创建一个新的目录,/python/HTML/crawl,但是目前这三个文件夹都不存在,如果使用mkdir命令的话需要使用三次才能完成,但是使用os.makedir只需使用一次就可以创建好整个目录。os.makedirs(os.path.join(os.erv 阅读全文

posted @ 2013-07-13 23:02 Mingz2013 阅读(298) 评论(0) 推荐(0) 编辑

Python写的简易采集爬虫(蜘蛛)

摘要: #!/usr/bin/python#-*-coding:utf-8-*-# 简易采集爬虫# 1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站# 2.需要sqlite3或者pysqlite支持# 3.可以在DreamHost.com空间上面运行# 4.可以修改User-Agent冒充搜索引擎蜘蛛# 5.可以设置暂停的时间,控制采集速度# 6.采集Yahoo会被封IP数小时,所以这个采集用处不大# Author: Lukin# Date : 2008-09-25# 导入采集需要用到的模块import re, sys, timeimport httplib, os 阅读全文

posted @ 2013-07-13 23:00 Mingz2013 阅读(410) 评论(0) 推荐(0) 编辑

上一页 1 ··· 4 5 6 7 8