python - 随笔分类 - littlebai

Arch Linux 新版安装

摘要：中文安装相关文章：官方wiki arch linux系统重做笔记依据wiki的新版镜像安装流程Arch Linux新版2012.12.01安装(本文在这个基础上进行安装，重复的部分不在放出，请查看原文)作者在最后放出“暂时不全”，那么下面补全下。首先解释下安装的思路，在vbox中安装arch-linux，然后通过下载的iso进行安装。在Arch Linux新版2012.12.01安装中已经将系统安装到了硬盘(虚拟机的硬盘)中，那么接下去就是进行系统配置和安装bios(或者grub引导)1.创建挂载分区表，从isoroot环境进入chroot环境，并用root登入genfstab -p /.. 阅读全文

posted @ 2013-03-11 16:54 littlebai 阅读(1512) 评论(4) 推荐(0) 编辑

Python抓取优酷视频（下）：使用web.py搭建网站框架

摘要：承上：　上篇已经将优酷视频的链接地址采集到数据库中，详情看Python抓取优酷视频（上）：爬虫使用及数据处理，这里稍微啰嗦几句，采集的其实就是单独视频播放的页面地址，而不是flash地址，因此不用做地址解析。接下去任务就是搭建一个网站列表页。思路：1.采用web.py搭建网站框架，Django太大，web.py上手快。2.主页面采用列表页，显示title和date3.采用分页处理，每页10个视频连接代码：代码结构：web_by: code.py template: index.htmlcode.py 1 import web 2 import MySQLdb 3 4 db = we... 阅读全文

posted @ 2012-09-18 09:01 littlebai 阅读(3670) 评论(2) 推荐(1) 编辑

Python抓取优酷视频（上）：爬虫使用及数据处理

摘要：缘起：上篇因为工作需要（就是把腾讯新闻copy到单位自己网站上去每天15条更新）所以写了一个抓取腾讯新闻的python小脚本这次是因为想用手机看youku视频，比如xiaoy的魔兽解说，但是打开浏览器输入game.youku.com的时候，三星9003太不给力，因而需要一个打开速度快的目录小网站。思路：1.数据表设计： id(int), //主键自增 title(varchar 50), //速度优先，只需要title，不需要图片 href(varchar 50), //视频播放地址 date(varchar 25), //采集的date中有如“1小时前”，因此也设计成varchar... 阅读全文

posted @ 2012-08-21 16:30 littlebai 阅读(15526) 评论(6) 推荐(1) 编辑

Python 实现腾讯新闻抓取

摘要：思路：1.抓取腾讯新闻列表页面: http://news.qq.com/2.提取详细页面的url：http://news.qq.com/a/20120814/000070.htm 3.在详细页中提取新闻标题和内容4.去除提取内容中的html标签，生成txt文档代码： 1 #coding=utf-8 2 import sys 3 import urllib2 4 import re 5 import os 6 7 def extract_url(info): 8 rege="http://news.qq.com/a/\d{8}/\d{6}.htm" 9 re_url = re 阅读全文

posted @ 2012-08-14 09:56 littlebai 阅读(14497) 评论(12) 推荐(5) 编辑

Python 网站建设

摘要：一、CentOS5.0下环境搭建 python2.5安装, gae(https://developers.google.com/appengine) 支持2.5 2.7版本，而CentOS5下默认为2.4版本，不过因yum需要python2.4，所以不能删除原来版本。 wget http://www.python.org/ftp/python/2.5/python-2.5.tar.bz2 tar jxvf python-2.5.tar.bz2 cd python-2.5 ./configure --prefix=/usr/local #安装在指定目录，避免覆盖旧版本，不过默认安装好像... 阅读全文

posted @ 2012-07-24 11:26 littlebai 阅读(2248) 评论(2) 推荐(0) 编辑

littlebai

随笔分类 - python

公告