随笔分类 -  python爬虫

摘要:在浏览器的验证窗口中输入登陆名和密码后,成功后会弹出一个小的新窗口,如果不小心关闭了这个窗口,则就会无法联网。如果说我在一个不带有桌面的Linux系统中,我是不能够通过浏览器接入网络的,虽然提供了不同系统的不同版本的客户端(没有用过),但是还是想自己做一个玩玩,同时依据上一篇博客中获取到的帐号进行尝 阅读全文
posted @ 2016-10-24 22:06 Amei1314 阅读(695) 评论(0) 推荐(0) 编辑
摘要:软院这边网速是挺不错的,而且在宿舍和实验室都是可以通过学号直接登陆的上网的,但是..有的时候实验室的台式机需要一个网号,笔记本需要一个网号,或者再加上一个路由器需要一个,然后,感觉网号托托的不够呀。刚开学分配网号的时候,每个人的密码都初始为同一个,嘿嘿。。。有些人其实懒得去改,或者是去了遥远的杭州, 阅读全文
posted @ 2016-10-23 19:11 Amei1314 阅读(717) 评论(0) 推荐(0) 编辑
摘要:为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地。要爬取的网站为: 大秀台模特网 1. 分析网站 进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为: http://www.daxiutai.com/mote/5.html ,这也将是我们爬取的入口点, 阅读全文
posted @ 2016-10-21 22:50 Amei1314 阅读(1297) 评论(0) 推荐(0) 编辑
摘要:学习了urllib,urlib2以及正则表达式之后就可以做一些简单的抓取以及处理工作。为了抓取方便,这里选择糗事百科的网页作为抓取对象。 1. 获取数据: 2. 抓取段子的文字内容: 我用的firefox浏览器,按F12,然后进入查看器,就可以对生成的页面代码进行查看,当点击某一项的时候会在网页中标 阅读全文
posted @ 2016-10-20 15:08 Amei1314 阅读(1727) 评论(0) 推荐(0) 编辑
摘要:1.urllib.urlopen 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作 urlopen返回对象提供方法: - read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样 - in 阅读全文
posted @ 2016-10-10 19:56 Amei1314 阅读(493) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示