Python学习 第7天 爬虫-1 构思
语法大概熟悉后,开始尝试下爬虫,这也是python比较热门的一种应用,只有在实际应用中摸索才能掌握,光看教程不够。
刚好有下载电影的需求,思路如下:
1、整理一个待下载的电影名称列表的文本,每行一个电影名字
2、到一个bt搜索网站上按行循环搜索
3、搜索名字后会出现一堆结果,主要判断两个地方。
一个是大小,找出第1页10G以内从大到小排列前三的,因为超过10G可能就不是所要找的内容了,而是一些什么合集
另一个是人气,大小第一如果人气太低也下载不了,所以要在下载大小和人气之间选择容易尽量大、人气尽量多的。先按大小也行,看下下载情况,或者取个临界值,小于多少人气的就顺位取后面一个。
4、找到这个链接后,点击进去(即python抓取网页),里面有个magent地址,这个就是要找的,记录在文本,并把原先文本里的电影名称删除,避免重复抓取。
文本可能不方便,估计弄个数据库打上已处理标记更好。
其实要处理文本也可以,读取文本,找到记录,在前面加上【已抓取】几个字,下次取的时候写死判断前面带这几个字的就跳过
上午要加班,回来再试下
============================
中午下雨,就没回家吃了直接在公司趴了一会下午继续,做到四点部门去看电影,刺客信条,没看懂。看完聚餐,九点前能78元抵100元,结果不知道,21:02出来结账。。。最后只好打九五折并送五张50元券,还好可以报销。
具体就没法试了,晚上先找些资料看下怎么爬取网页吧
============================
#encoding=utf8 import urllib res = urllib.urlopen("http://www.baidu.com") file_object = open('thefile.txt', 'w') file_object.write(res.read()) file_object.close()
总算有个起步了
import的这个urllib,是通用爬取网页的包,用urlopen可以打开网页,再.read()可以获取网页内容
要写到文件里,要先open('xx','w'),再write,并记得close()