摘要: 大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。 本篇目标 1.模拟登录学生成绩管理系统 2 阅读全文
posted @ 2017-02-08 21:46 知行Lee 阅读(924) 评论(0) 推荐(0) 编辑
摘要: 更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个。 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经不可能了。那本节就带大家抓取匿名旺旺号熟悉一下Selenium吧。 2016/7/1 前言 嗯,淘宝 阅读全文
posted @ 2017-02-08 21:46 知行Lee 阅读(2393) 评论(0) 推荐(0) 编辑
摘要: 大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法 正则表达式的简单应用 环境配置 在这之前,我们需要先配置一下环境,我的Python的版本为2.7,需要额外 阅读全文
posted @ 2017-02-08 21:45 知行Lee 阅读(944) 评论(0) 推荐(0) 编辑
摘要: 经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持。 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了,比较难解决这个问题,以下的代码没法用了,仅作学习参考研究之用吧。 本篇内容 1. python模拟 阅读全文
posted @ 2017-02-08 21:44 知行Lee 阅读(3835) 评论(0) 推荐(0) 编辑
摘要: 福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 最新动态 更新时间:2015/8/2 最近好多读者反映代码已经不能用了,原因是淘宝索引页的MM链接改了。网站改版了,URL的索引已经和之前的不一样了,之前可以直接跳转到每个MM的个性域名,现在中间加了一个跳转页,本以 阅读全文
posted @ 2017-02-08 21:43 知行Lee 阅读(769) 评论(0) 推荐(0) 编辑
摘要: 综述 最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! 假若你不能连这个无线,那就照照思路啦~ 决战前夕 首先我们看一下那个验证页面是咋样滴,上个图先 嘿, 阅读全文
posted @ 2017-02-08 21:42 知行Lee 阅读(1419) 评论(0) 推荐(0) 编辑
摘要: 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路。 2016/ 阅读全文
posted @ 2017-02-08 21:41 知行Lee 阅读(1079) 评论(0) 推荐(0) 编辑
摘要: 大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没 阅读全文
posted @ 2017-02-08 21:40 知行Lee 阅读(1368) 评论(1) 推荐(0) 编辑
摘要: 在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规 阅读全文
posted @ 2017-02-08 21:39 知行Lee 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密) 比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取 阅读全文
posted @ 2017-02-08 21:38 知行Lee 阅读(2303) 评论(0) 推荐(0) 编辑
摘要: 大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个 阅读全文
posted @ 2017-02-08 21:36 知行Lee 阅读(654) 评论(0) 推荐(0) 编辑
摘要: 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 阅读全文
posted @ 2017-02-08 21:32 知行Lee 阅读(1246) 评论(0) 推荐(0) 编辑
摘要: 那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。 1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他 阅读全文
posted @ 2017-02-08 21:31 知行Lee 阅读(1142) 评论(0) 推荐(0) 编辑
摘要: 1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 阅读全文
posted @ 2017-02-08 21:29 知行Lee 阅读(869) 评论(0) 推荐(0) 编辑
摘要: 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验。 Python版本:2.7,Python 3请另寻其他博文。 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网 阅读全文
posted @ 2017-02-08 21:28 知行Lee 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流。 Python版本:2.7 一、爬虫入门 1. Py 阅读全文
posted @ 2017-02-08 21:26 知行Lee 阅读(2252) 评论(0) 推荐(1) 编辑
摘要: 对万国语的地名进行翻译和检索 经过 前三篇的调试,已经有了一个完整的Map可以浏览,我们痛苦的世界范围数据下载、导入过程也结束了。要提醒一下的是,鉴于网速,不要下载 planetosm.lastest 文件,因为这个文件每周更新,万一一周下不完,就over了。 当然了,导入后,别忘了 [plain] 阅读全文
posted @ 2017-02-08 21:11 知行Lee 阅读(392) 评论(0) 推荐(0) 编辑
摘要: Openlays和slippymap 上一步,我们已经有了自己的地图瓦片服务器,现在,开始实现SlippyMap啦! <1>下载释放OpenLayers到 www文件夹 SlippyMap 利用 OpenLays 的AJax实现,直接从Openlays官网下载最新版文件 http://www.ope 阅读全文
posted @ 2017-02-08 21:10 知行Lee 阅读(423) 评论(0) 推荐(0) 编辑
摘要: Mapnik及apache2mod_tile配置 上一篇,我们配置好了PostgreSQL服务器,导入了测试数据。今天,我们来配置 mapnik2 + apache2 + mod_tile 的WMS服务器,以便在今后被 OpenLays访问。 <1> 下载mapnik2代码到本地 (通过系统包pyt 阅读全文
posted @ 2017-02-08 21:07 知行Lee 阅读(729) 评论(0) 推荐(0) 编辑
摘要: Postgresql配置及osm2pgsql原始数据导入 2012年,Ubuntu 12.04LTS发布,又一个长效支持版,我们又该更新OpenStreetMap服务器了,这次,将详细在博客中记录配置过程。关于前面对OpenStreetMap的介绍,参考我的博文http://blog.csdn.ne 阅读全文
posted @ 2017-01-21 16:56 知行Lee 阅读(1621) 评论(0) 推荐(0) 编辑