随笔分类 - python爬虫
摘要:在浏览器的验证窗口中输入登陆名和密码后,成功后会弹出一个小的新窗口,如果不小心关闭了这个窗口,则就会无法联网。如果说我在一个不带有桌面的Linux系统中,我是不能够通过浏览器接入网络的,虽然提供了不同系统的不同版本的客户端(没有用过),但是还是想自己做一个玩玩,同时依据上一篇博客中获取到的帐号进行尝
阅读全文
摘要:软院这边网速是挺不错的,而且在宿舍和实验室都是可以通过学号直接登陆的上网的,但是..有的时候实验室的台式机需要一个网号,笔记本需要一个网号,或者再加上一个路由器需要一个,然后,感觉网号托托的不够呀。刚开学分配网号的时候,每个人的密码都初始为同一个,嘿嘿。。。有些人其实懒得去改,或者是去了遥远的杭州,
阅读全文
摘要:为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地。要爬取的网站为: 大秀台模特网 1. 分析网站 进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为: http://www.daxiutai.com/mote/5.html ,这也将是我们爬取的入口点,
阅读全文
摘要:学习了urllib,urlib2以及正则表达式之后就可以做一些简单的抓取以及处理工作。为了抓取方便,这里选择糗事百科的网页作为抓取对象。 1. 获取数据: 2. 抓取段子的文字内容: 我用的firefox浏览器,按F12,然后进入查看器,就可以对生成的页面代码进行查看,当点击某一项的时候会在网页中标
阅读全文
摘要:1.urllib.urlopen 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作 urlopen返回对象提供方法: - read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样 - in
阅读全文