上一页 1 ··· 3 4 5 6 7 8 9 10 下一页
摘要: 1. 概念解析(wsgi协议,uwsgi协议,uWSGI) 参考:https://www.cnblogs.com/wspblog/p/8575101.html 1.1 现实世界的web请求: 1.2 wsgi协议,uwsgi协议和uWSGI a. WSGI(wsgi): 全称 Web Server 阅读全文
posted @ 2019-02-10 12:58 silence_cho 阅读(806) 评论(0) 推荐(0) 编辑
摘要: 为了练习python,将python练习册学习了一遍,记录下自己的答案,习题地址:https://github.com/Yixiaohan/show-me-the-code 第 0000 题: 将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。 (使用到PI 阅读全文
posted @ 2019-02-08 22:20 silence_cho 阅读(9632) 评论(0) 推荐(1) 编辑
摘要: 做一个租房信息的网站,要爬取58同城上南京品牌公馆的房源信息,因为数字被重新编码了,折腾了一天,记录一下整个过程,留着后面使用。 1,网页分析和字体文件反爬 简单看了下url(https://nj.58.com/pinpaigongyu/pn/1/),比较简单,替换下网址中页码数,就可以一直翻页并进 阅读全文
posted @ 2019-01-06 12:36 silence_cho 阅读(1484) 评论(0) 推荐(0) 编辑
摘要: 碰到一个日期选择,并将日期存储到数据库的需求,需要利用bootstrp的datetimepicker插件获取选定日期,并将其转换为指定字符窜,简单记录下实现的过程。 1. datetimepicker插件的使用 关于datetimepicker插件的官方文档: http://www.bootcss. 阅读全文
posted @ 2018-12-31 18:21 silence_cho 阅读(2686) 评论(0) 推荐(0) 编辑
摘要: 同源策略:所谓同源是指,域名,协议,端口相同,它是由Netscape提出的一个著名的安全策略,现在所有支持JavaScript 的浏览器都会使用这个策略。当浏览器同时打开两个tab页面(两个不同服务器提供),tab1页面发送请求时,浏览器会检测是否是向tab1的服务器发出请求,若是向tab2的服务器 阅读全文
posted @ 2018-12-31 18:14 silence_cho 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 除了在html中自己手写form表单外,django还可以通过 继承django.forms.Form 或django.forms.ModelForm两个类来自动生成form表单,下面依次利用三种方式来实现form表单,实现向数据库中添加书籍的页面,效果如下: 首先在models类中定义了Book, 阅读全文
posted @ 2018-12-31 18:04 silence_cho 阅读(3184) 评论(0) 推荐(0) 编辑
摘要: 当有大量url需要下载时,串行爬取速度较慢,需要使用多线程、多进程进行爬取,以及部署分布式爬虫等 1.多线程爬虫 下面代码中三个线程时,爬取61个url,花费16-25s;五个线程时,花费41-55s。(线程间的切换也消耗时间) 2.多进程爬虫 2.1 多进程 下面代码中两个进程,爬取61个url, 阅读全文
posted @ 2018-12-27 21:58 silence_cho 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 对于网页上的有些内容,需要进行一定的交互操作,才能拿到相应的数据,例如常见的ajax请求等。为了抓取ajax请求的结果,可以通过ajax请求的url,抓取返回结果,也可以利用Selenium模块来模拟网页ajax。简单记录下一段学习过程。 1.问题分析 如下面我爱我家的网页中(https://wh. 阅读全文
posted @ 2018-12-24 22:18 silence_cho 阅读(977) 评论(0) 推荐(0) 编辑
摘要: 通过Resquest或urllib2抓取下来的网页后,一般有三种方式进行数据提取:正则表达式、beautifulsoup和lxml,留下点学习心得,后面慢慢看。 1. 正则表达式 参考文档: 正则表达式30分钟入门教程 python3 re模块 看完文档后理解正则表达式的基本概念就行,然后知道贪婪匹 阅读全文
posted @ 2018-12-23 16:17 silence_cho 阅读(1139) 评论(0) 推荐(0) 编辑
摘要: 对于爬取下来的网页进行缓存,可以方便下次访问,无需再次下载。实现过程可以分为两大块,一是实现下载器,二是实现缓存器。 1. 下载器: 下载器功能:下载时先查看缓存中是否保存url对应的文件,不存在时再去访问网页端,并将结果加入到缓存中,下载器代码如下: 在爬取网页时,使用下载器代码如下: 2. 缓存 阅读全文
posted @ 2018-12-21 21:47 silence_cho 阅读(928) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 下一页