摘要: 思路:1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签,生成txt文档代码: 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/\d{8}/\d{6}.htm" 9 re_url = re 阅读全文
posted @ 2012-08-14 09:56 littlebai 阅读(14485) 评论(12) 推荐(5) 编辑