摘要:
利用django搭建一个简单的博客系统,记录下整个过程。 建立项目blog,项目文件如下: 首先建立数据模型,包括用户,博客,文章,文章内容,评论,点赞,分类,标签八张表,代码如下: #coding:utf-8 from __future__ import unicode_literals from 阅读全文
摘要:
1. 概念解析(wsgi协议,uwsgi协议,uWSGI) 参考:https://www.cnblogs.com/wspblog/p/8575101.html 1.1 现实世界的web请求: 1.2 wsgi协议,uwsgi协议和uWSGI a. WSGI(wsgi): 全称 Web Server 阅读全文
摘要:
为了练习python,将python练习册学习了一遍,记录下自己的答案,习题地址:https://github.com/Yixiaohan/show-me-the-code 第 0000 题: 将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果。 (使用到PI 阅读全文
摘要:
做一个租房信息的网站,要爬取58同城上南京品牌公馆的房源信息,因为数字被重新编码了,折腾了一天,记录一下整个过程,留着后面使用。 1,网页分析和字体文件反爬 简单看了下url(https://nj.58.com/pinpaigongyu/pn/1/),比较简单,替换下网址中页码数,就可以一直翻页并进 阅读全文
摘要:
碰到一个日期选择,并将日期存储到数据库的需求,需要利用bootstrp的datetimepicker插件获取选定日期,并将其转换为指定字符窜,简单记录下实现的过程。 1. datetimepicker插件的使用 关于datetimepicker插件的官方文档: http://www.bootcss. 阅读全文
摘要:
同源策略:所谓同源是指,域名,协议,端口相同,它是由Netscape提出的一个著名的安全策略,现在所有支持JavaScript 的浏览器都会使用这个策略。当浏览器同时打开两个tab页面(两个不同服务器提供),tab1页面发送请求时,浏览器会检测是否是向tab1的服务器发出请求,若是向tab2的服务器 阅读全文
摘要:
除了在html中自己手写form表单外,django还可以通过 继承django.forms.Form 或django.forms.ModelForm两个类来自动生成form表单,下面依次利用三种方式来实现form表单,实现向数据库中添加书籍的页面,效果如下: 首先在models类中定义了Book, 阅读全文
摘要:
当有大量url需要下载时,串行爬取速度较慢,需要使用多线程、多进程进行爬取,以及部署分布式爬虫等 1.多线程爬虫 下面代码中三个线程时,爬取61个url,花费16-25s;五个线程时,花费41-55s。(线程间的切换也消耗时间) 2.多进程爬虫 2.1 多进程 下面代码中两个进程,爬取61个url, 阅读全文
摘要:
对于网页上的有些内容,需要进行一定的交互操作,才能拿到相应的数据,例如常见的ajax请求等。为了抓取ajax请求的结果,可以通过ajax请求的url,抓取返回结果,也可以利用Selenium模块来模拟网页ajax。简单记录下一段学习过程。 1.问题分析 如下面我爱我家的网页中(https://wh. 阅读全文
摘要:
通过Resquest或urllib2抓取下来的网页后,一般有三种方式进行数据提取:正则表达式、beautifulsoup和lxml,留下点学习心得,后面慢慢看。 1. 正则表达式 参考文档: 正则表达式30分钟入门教程 python3 re模块 看完文档后理解正则表达式的基本概念就行,然后知道贪婪匹 阅读全文