hi_net

2014年10月18日

摘要：现代信息检索阅读全文

posted @ 2014-10-18 19:18 hi_net 阅读(418) 评论(0) 推荐(0)

2014年8月13日

摘要：今天有个小程序想要在函数名列表中调用相应的函数处理，却怎么运行不了。初始代码如下：#coding:utf8def h1(): print '函数1'def h2(): print '函数2'if __name__ == '__main__': list1 = ['h1','h2']... 阅读全文

posted @ 2014-08-13 15:06 hi_net 阅读(135) 评论(0) 推荐(0)

2014年8月12日

抓取新闻的爬虫

摘要：此爬虫是基于http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.html，修改而成，因自己也在学习过程中，略微加入了一些注释，更改了部分代码。由于发现博主过滤非文本内容时用的正则表达式很不错，记录一下。#coding=utf-8impor... 阅读全文

posted @ 2014-08-12 17:22 hi_net 阅读(277) 评论(0) 推荐(0)

抓取MM图片的爬虫

摘要：刚学python，试着写了个非常简单的爬虫，爬一些MM的图片下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page... 阅读全文

posted @ 2014-08-12 17:06 hi_net 阅读(257) 评论(0) 推荐(0)

Python中的字符编码问题

摘要：初学Python，本身就在一些语句处有些迷惑，如 a = u'你好'，不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时，在cmd的输出上总是出现错误。经过检索相关知识后，对一些编码问题做个小总结，其中参杂个人猜测，难免会有错误，以后再慢慢修改了。 1.一定要声明#coding=X... 阅读全文

posted @ 2014-08-12 16:50 hi_net 阅读(194) 评论(0) 推荐(0)

正则表达式

摘要：阅读全文

posted @ 2014-08-12 12:00 hi_net 阅读(95) 评论(0) 推荐(0)

正则表达式中的贪婪非贪婪

摘要：近几天在做几个爬虫，分析网页url的时候，抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后，下面语句也匹配了出来href="http://www.xxx.info... 阅读全文

posted @ 2014-08-12 11:39 hi_net 阅读(171) 评论(0) 推荐(0)

公告