08 2012 档案

摘要:缘起:上篇因为工作需要(就是把腾讯新闻copy到单位自己网站上去每天15条更新)所以写了一个抓取腾讯新闻的python小脚本这次是因为想用手机看youku视频,比如xiaoy的魔兽解说,但是打开浏览器输入game.youku.com的时候,三星9003太不给力,因而需要一个打开速度快的目录小网站。思路:1.数据表设计: id(int), //主键自增 title(varchar 50), //速度优先,只需要title,不需要图片 href(varchar 50), //视频播放地址 date(varchar 25), //采集的date中有如“1小时前”,因此也设计成varchar... 阅读全文
posted @ 2012-08-21 16:30 littlebai 阅读(15660) 评论(6) 推荐(1)
摘要:思路:1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url:http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签,生成txt文档代码: 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/\d{8}/\d{6}.htm" 9 re_url = re 阅读全文
posted @ 2012-08-14 09:56 littlebai 阅读(14543) 评论(12) 推荐(5)