08 2012 档案

Python抓取优酷视频（上）：爬虫使用及数据处理

摘要：缘起：上篇因为工作需要（就是把腾讯新闻copy到单位自己网站上去每天15条更新）所以写了一个抓取腾讯新闻的python小脚本这次是因为想用手机看youku视频，比如xiaoy的魔兽解说，但是打开浏览器输入game.youku.com的时候，三星9003太不给力，因而需要一个打开速度快的目录小网站。思路：1.数据表设计： id(int), //主键自增 title(varchar 50), //速度优先，只需要title，不需要图片 href(varchar 50), //视频播放地址 date(varchar 25), //采集的date中有如“1小时前”，因此也设计成varchar... 阅读全文

posted @ 2012-08-21 16:30 littlebai 阅读(15660) 评论(6) 推荐(1)

Python 实现腾讯新闻抓取

摘要：思路：1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url：http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签，生成txt文档代码： 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/\d{8}/\d{6}.htm" 9 re_url = re 阅读全文

posted @ 2012-08-14 09:56 littlebai 阅读(14543) 评论(12) 推荐(5)

littlebai

08 2012 档案

公告