上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: 有时候你要把抓回来的数据进行提取,过大篇幅的html标签,你若使用正则表达式进行匹配的话,显然是低效的,这时使用python的HTMLParser模块会显得非常方便。据说还有个比较好用的解析器叫:Beautiful Soup,这个以后有机会再说吧,现在本渣连实习都找不到,再搞这个东西估计没法生活了。。。。。。事先说明:我们要解析的html和xhtml的语法是规范的那一种,如果遇到不规范的就gg了,得自己手写正则提取。还有,对于那些转义字符没转义就先不考虑了。。。。。。。关于HTMLParser与SGMLParser:网上看很多大牛说HTMLParser对中文字符的提取很不好,推荐使用SGML. 阅读全文
posted @ 2014-04-02 01:37 中大黑熊 阅读(11130) 评论(2) 推荐(1) 编辑
摘要: 继续爬虫的学习,为了致敬http://blog.csdn.net/pleasecallmewhy/article/details/8932310 中why大神的糗事爬虫,我做了一个奇虎新闻的小爬虫,亲测可试,但是我这个爬虫还是单线程的,而且抓取的量也不是很多,而且是最基本的url特性抓取,还没有能力抓取url不变的网站消息。首先说一下我要抓取的网站:360新闻搜索 - 搜一下,知天下 ,通过观察其url,不难看出来是http://sh.qihoo.com/类别/index_页数.html 的结构,隐藏只需要把它抓取回来,依次用正则的方式匹配就行,废话不多说,上码。 1 #!/usr/bin/e 阅读全文
posted @ 2014-03-30 16:31 中大黑熊 阅读(1077) 评论(0) 推荐(0) 编辑
摘要: 我也是根据:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ,来写出豆瓣读书的爬虫,废话不说直接上代码: 1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 import urllib2 5 6 #获取豆瓣读书的分页的页面 7 def doubanbook(url,begin,end): 8 for i in range(begin,end+1): 9 filename = str(i) + '.html'10 print 'Do... 阅读全文
posted @ 2014-03-28 13:25 中大黑熊 阅读(1550) 评论(0) 推荐(0) 编辑
摘要: 一开始我以为urllib2模块单纯是urllib模块的升级版,因为我看到它们都有urlopen方法,但是经过查找资料,发现两者差别还是很大的。这是我在网上看到的总结:urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,你不可以通过urllib模块伪装你的User Agent字符串等(伪装浏览器)。urllib提供urlencode方法用来GET查询字符串的产生,而urllib2没有。这是为何urllib常和urllib2一起使用的原因。urllib2模块比较优势的地方是urlliburllib2.urlopen可以接受Req 阅读全文
posted @ 2014-03-28 10:51 中大黑熊 阅读(15578) 评论(0) 推荐(1) 编辑
摘要: 1.cookielib模块cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个:CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。其中他们的关系如下:2.urllib2模块说到urllib2模块最强大的部分绝对是它的opener,urllib2模块的 OpenerDirector 操作类。这是一个管理很多处理类(Handler 阅读全文
posted @ 2014-03-28 10:44 中大黑熊 阅读(41775) 评论(0) 推荐(5) 编辑
摘要: 现在Python基本入门了,现在开始要进军如何写爬虫了!先把最基本的urllib模块弄懂吧。urllib模块中的方法1.urllib.urlopen(url[,data[,proxies]])打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作。本例试着打开google>>> import urllib>>> f = urllib.urlopen('http://www.google.com.hk/')>>> firstLine = f.readline() #读取html页面的第一行>>> 阅读全文
posted @ 2014-03-27 22:22 中大黑熊 阅读(181308) 评论(3) 推荐(3) 编辑
摘要: 发现现在的天下几乎都是java的天下啊,虽然我个人对java没什么好感,但是迫于生活压力,还是学一下吧,我关注的应该主要还是web方面,所以应该学的是java server page(JSP),所以先把javase的内容先复习复习一下吧。 我觉得通过一些demo来记语言中的一些特性和概念是比较好的,所以我总结了以下的Demo:(这只是对我个人而言比较薄弱的部分,并不能代表大部分人的看法,谢谢!)1.一维数组与多维数组package Demo;public class Array { /** * @param args */ public static void m... 阅读全文
posted @ 2014-03-22 21:09 中大黑熊 阅读(9441) 评论(1) 推荐(1) 编辑
摘要: 正则表达式在脚本语言里是最重要的一部分,这部分的题目真的不容怠慢。开始这部分的题目的解答!15.1识别下列字符串:bat,bit,but,hat,hit和hut。>>> import re>>> pattern='[bh][aiu]t'>>> word='batsasasasa'>>> m=re.search(pattern,word)>>> if m is not None:... m.group()... 'bat'15.2.匹配用一个空格分隔的任意一对 阅读全文
posted @ 2014-03-16 23:31 中大黑熊 阅读(1322) 评论(0) 推荐(0) 编辑
摘要: 好久没写过Python了,前一阵子忙这忙那的,都几乎把Python给丢掉了,话不多说,马上开始。9.1.文件过滤。显示一个文件的所有行,并且忽略以井号开头的行。其实这个题目比较基础,用shell语言的话,一行就能搞定。还是做一下吧。用shell语言+正则:dzhwen@deng:~/python文件/Homework/Chapter9$ cat regular_express.txt | grep -v '^#'用python: 1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 def show(filename): 5 f = 阅读全文
posted @ 2014-03-11 21:43 中大黑熊 阅读(560) 评论(0) 推荐(0) 编辑
摘要: 纯粹按着鸟哥的书上的基本命令打一遍,不喜勿喷!Chapter5.首次登录一.基础命令:1.显示时间和日期的命令:datedzhwen@deng:~$ date2014年 02月 23日 星期日 14:59:20 CSTdzhwen@deng:~$ date +%Y/%m/%d2014/02/23dzhwen@deng:~$ date +%H:%M14:592.显示日历:caldzhwen@deng:~$ cal 二月 2014 日 一 二 三 四 五 六 1 2 3 4 5 6 7 8 9 10 11 12 ... 阅读全文
posted @ 2014-03-05 21:31 中大黑熊 阅读(3718) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页