摘要:
思路:1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签,生成txt文档代码: 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/\d{8}/\d{6}.htm" 9 re_url = re 阅读全文