摘要: 现代信息检索 阅读全文
posted @ 2014-10-18 19:18 hi_net 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 今天有个小程序想要在函数名列表中调用相应的函数处理,却怎么运行不了。初始代码如下:#coding:utf8def h1(): print '函数1'def h2(): print '函数2'if __name__ == '__main__': list1 = ['h1','h2']... 阅读全文
posted @ 2014-08-13 15:06 hi_net 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html,修改而成,因自己也在学习过程中,略微加入了一些注释,更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错,记录一下。#coding=utf-8impor... 阅读全文
posted @ 2014-08-12 17:22 hi_net 阅读(267) 评论(0) 推荐(0) 编辑
摘要: 刚学python,试着写了个非常简单的爬虫,爬一些MM的图片下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page... 阅读全文
posted @ 2014-08-12 17:06 hi_net 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=X... 阅读全文
posted @ 2014-08-12 16:50 hi_net 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2014-08-12 12:00 hi_net 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后,下面语句也匹配了出来href="http://www.xxx.info... 阅读全文
posted @ 2014-08-12 11:39 hi_net 阅读(161) 评论(0) 推荐(0) 编辑