摘要:
昨天用python写了一个天气预报采集,今天趁着兴头写个新闻采集的。 目标是,将腾讯新闻主页上所有新闻爬取下来,获得每一篇新闻的名称、时间、来源以及正文。 接下来分解目标,一步一步地做。 步骤1:将主页上所有链接爬取出来,写到文件里。 根据上一篇文章的方法,可以简单地获取到整个主页的文本内容。 我们都知道html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。 查阅了资料,一开始我打算用HTMLParser,而且也写出来了。但是它有一个问题,就是遇到中文字符的时候无法处理。1 class parser(HTMLPar... 阅读全文
摘要:
python是一门很强大的语言,在实现爬虫方面也十分方便。 这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了。 爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。 1、获得html文本。 python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。1 def getHtml(url):2 page = urllib.urlopen(url)3 html = page.read()4 page.close()5 ... 阅读全文
摘要:
前不久学了点python,昨天刚好要处理一个文件,于是拿来试试。 1)正则表达式的使用。#正则表达式的模块import re#正则表达式rePattern = '.*[0-9]{4}'pattern = re.compile(rePattern)#匹配if pattern.match(line): return Trueelse: return False 2)在函数中使用全局变量。def func(): global num 3)python默认print输出换行。如果需要输出时不换行,在最后加上逗号即可。print 'Hello World!', 4)字符串 阅读全文