中大黑熊

2014年4月2日

摘要：有时候你要把抓回来的数据进行提取，过大篇幅的html标签，你若使用正则表达式进行匹配的话，显然是低效的，这时使用python的HTMLParser模块会显得非常方便。据说还有个比较好用的解析器叫：Beautiful Soup，这个以后有机会再说吧，现在本渣连实习都找不到，再搞这个东西估计没法生活了。。。。。。事先说明：我们要解析的html和xhtml的语法是规范的那一种，如果遇到不规范的就gg了，得自己手写正则提取。还有，对于那些转义字符没转义就先不考虑了。。。。。。。关于HTMLParser与SGMLParser：网上看很多大牛说HTMLParser对中文字符的提取很不好，推荐使用SGML. 阅读全文

posted @ 2014-04-02 01:37 中大黑熊阅读(11130) 评论(2) 推荐(1) 编辑

2014年3月30日

正则匹配牛刀小试——一键抓取奇虎360新闻信息

摘要：继续爬虫的学习，为了致敬http://blog.csdn.net/pleasecallmewhy/article/details/8932310 中why大神的糗事爬虫，我做了一个奇虎新闻的小爬虫，亲测可试，但是我这个爬虫还是单线程的，而且抓取的量也不是很多，而且是最基本的url特性抓取，还没有能力抓取url不变的网站消息。首先说一下我要抓取的网站：360新闻搜索 - 搜一下,知天下，通过观察其url，不难看出来是http://sh.qihoo.com/类别/index_页数.html 的结构，隐藏只需要把它抓取回来，依次用正则的方式匹配就行，废话不多说，上码。 1 #!/usr/bin/e 阅读全文

posted @ 2014-03-30 16:31 中大黑熊阅读(1077) 评论(0) 推荐(0) 编辑

2014年3月28日

urllib2模块初体验———豆瓣读书页面下载小爬虫

摘要：我也是根据：http://blog.csdn.net/pleasecallmewhy/article/details/8927832 ，来写出豆瓣读书的爬虫，废话不说直接上代码： 1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 import urllib2 5 6 #获取豆瓣读书的分页的页面 7 def doubanbook(url,begin,end): 8 for i in range(begin,end+1): 9 filename = str(i) + '.html'10 print 'Do... 阅读全文

posted @ 2014-03-28 13:25 中大黑熊阅读(1550) 评论(0) 推荐(0) 编辑

urllib模块和urllib2模块的区别

摘要：一开始我以为urllib2模块单纯是urllib模块的升级版，因为我看到它们都有urlopen方法，但是经过查找资料，发现两者差别还是很大的。这是我在网上看到的总结：urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。这意味着，你不可以通过urllib模块伪装你的User Agent字符串等（伪装浏览器）。urllib提供urlencode方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。urllib2模块比较优势的地方是urlliburllib2.urlopen可以接受Req 阅读全文

posted @ 2014-03-28 10:51 中大黑熊阅读(15578) 评论(0) 推荐(1) 编辑

cookielib和urllib2模块相结合模拟网站登录

摘要： 1.cookielib模块cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个：CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。其中他们的关系如下：2.urllib2模块说到urllib2模块最强大的部分绝对是它的opener，urllib2模块的 OpenerDirector 操作类。这是一个管理很多处理类（Handler 阅读全文

posted @ 2014-03-28 10:44 中大黑熊阅读(41775) 评论(0) 推荐(5) 编辑

2014年3月27日

Python核心模块——urllib模块

摘要：现在Python基本入门了，现在开始要进军如何写爬虫了！先把最基本的urllib模块弄懂吧。urllib模块中的方法1.urllib.urlopen(url[,data[,proxies]])打开一个url的方法，返回一个文件对象，然后可以进行类似文件对象的操作。本例试着打开google>>> import urllib>>> f = urllib.urlopen('http://www.google.com.hk/')>>> firstLine = f.readline() #读取html页面的第一行>>> 阅读全文

posted @ 2014-03-27 22:22 中大黑熊阅读(181308) 评论(3) 推荐(3) 编辑

2014年3月22日

《java语言程序设计》初步学习——各种小Demo

摘要：发现现在的天下几乎都是java的天下啊，虽然我个人对java没什么好感，但是迫于生活压力，还是学一下吧，我关注的应该主要还是web方面，所以应该学的是java server page（JSP），所以先把javase的内容先复习复习一下吧。我觉得通过一些demo来记语言中的一些特性和概念是比较好的，所以我总结了以下的Demo：(这只是对我个人而言比较薄弱的部分，并不能代表大部分人的看法，谢谢！)1.一维数组与多维数组package Demo;public class Array { /** * @param args */ public static void m... 阅读全文

posted @ 2014-03-22 21:09 中大黑熊阅读(9441) 评论(1) 推荐(1) 编辑

2014年3月16日

Python核心编程——Chapter15

摘要：正则表达式在脚本语言里是最重要的一部分，这部分的题目真的不容怠慢。开始这部分的题目的解答！15.1识别下列字符串：bat，bit，but，hat，hit和hut。>>> import re>>> pattern='[bh][aiu]t'>>> word='batsasasasa'>>> m=re.search(pattern,word)>>> if m is not None:... m.group()... 'bat'15.2.匹配用一个空格分隔的任意一对阅读全文

posted @ 2014-03-16 23:31 中大黑熊阅读(1322) 评论(0) 推荐(0) 编辑

2014年3月11日

Python核心编程——Chapter9

摘要：好久没写过Python了，前一阵子忙这忙那的，都几乎把Python给丢掉了，话不多说，马上开始。9.1.文件过滤。显示一个文件的所有行，并且忽略以井号开头的行。其实这个题目比较基础，用shell语言的话，一行就能搞定。还是做一下吧。用shell语言+正则：dzhwen@deng:~/python文件/Homework/Chapter9$ cat regular_express.txt | grep -v '^#'用python: 1 #!/usr/bin/env python 2 #-*-coding=utf-8-*- 3 4 def show(filename): 5 f = 阅读全文

posted @ 2014-03-11 21:43 中大黑熊阅读(560) 评论(0) 推荐(0) 编辑

2014年3月5日

鸟哥的书——ubuntu命令

摘要：纯粹按着鸟哥的书上的基本命令打一遍，不喜勿喷！Chapter5.首次登录一.基础命令：1.显示时间和日期的命令：datedzhwen@deng:~$ date2014年 02月 23日星期日 14:59:20 CSTdzhwen@deng:~$ date +%Y/%m/%d2014/02/23dzhwen@deng:~$ date +%H:%M14:592.显示日历：caldzhwen@deng:~$ cal 二月 2014 日一二三四五六 1 2 3 4 5 6 7 8 9 10 11 12 ... 阅读全文

posted @ 2014-03-05 21:31 中大黑熊阅读(3718) 评论(0) 推荐(0) 编辑

公告