03 2022 档案
摘要:创建Django项目: 用命令行的方式: 创建项目:打开终端,使用命令:django-admin startproject [项目名称]即可创建。比如:django-admin startproject first_project。 创建应用(app):一个项目类似于是一个架子,但是真正起作用的还是
阅读全文
摘要:视图: 视图一般都写在app的views.py中。并且视图的第一个参数永远都是request(一个HttpRequest)对象。这个对象存储了请求过来的所有信息,包括携带的参数以及一些头部信息等。在视图中,一般是完成逻辑相关的操作。比如这个请求是添加一篇博客,那么可以通过request来接收到这些数
阅读全文
摘要:Django介绍: Django,发音为[`dʒæŋɡəʊ],Django诞生于2003年秋天,2005年发布正式版本,由Simon和Andrian开发。当时两位作者的老板和记者要他们几天甚至几个小时之内增加新的功能。两人不得已开发了Django这套框架以实现快速开发目的,因此Django生来就是为
阅读全文
摘要:URL是Uniform Resource Locator的简写,统一资源定位符。 一个URL由以下几部分组成: scheme://host:port/path/?query-string=xxx#anchor scheme:代表的是访问的协议,一般为http或者https以及ftp等。 host:主
阅读全文
摘要:在学习Django之前,需要做好以下准备工作: 确保已经安装Python 3.6以上的版本,教学以Python 3.6版本进行讲解。 安装virtualenvwrapper,这个是用来创建虚拟环境的包,使用虚拟环境可以让我们的包管理更加的方便,也为以后项目上线需要安装哪些包做好了准备工作。安装方式在
阅读全文
摘要:为什么需要虚拟环境: 到目前位置,我们所有的第三方包安装都是直接通过pip install xx的方式进行安装的,这样安装会将那个包安装到你的系统级的Python环境中。但是这样有一个问题,就是如果你现在用Django 1.10.x写了个网站,然后你的领导跟你说,之前有一个旧项目是用Django 0
阅读全文
摘要:Scrapy-Redis分布式爬虫组件 Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、
阅读全文
摘要:概述 redis是一种支持分布式的nosql数据库,他的数据是保存在内存中,同时redis可以定时把内存数据同步到磁盘,即可以将数据持久化,并且他比memcached支持更多的数据结构(string,list列表[队列和栈],set[集合],sorted set[有序集合],hash(hash表))
阅读全文
摘要:CrawlSpider 在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url,然后重新发送一个请求。有时候我们想要这样做,只要满足某个条件的url,都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider,只不过是
阅读全文
摘要:Scrapy Shell 我们想要在爬虫中使用xpath、beautifulsoup、正则表达式、css选择器等来提取想要的数据。但是因为scrapy是一个比较重的框架。每次运行起来都要等待一段时间。因此要去验证我们写的提取规则是否正确,是一个比较麻烦的事情。因此Scrapy提供了一个shell,用
阅读全文
摘要:pycharm安装教程2022年 在网络上搜索了一遍发现,并没有一篇是对pycharm安装讲的比较全部的教程;这样让新入门的python初学者非常不友好。 我将使用pycharm最新2022年版本安装一遍,每个步骤都尽量写详细让刚入门的python小白也能理解。 pycharm下载 pycharm安
阅读全文
摘要:安装和文档: 安装:通过pip install scrapy即可安装。 Scrapy官方文档:http://doc.scrapy.org/en/latest Scrapy中文文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html Pyc
阅读全文
摘要:图形验证码识别技术: 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在
阅读全文
摘要:多线程爬虫 有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。Pycharm激活注册码教程使用更多解释请见:https://vrg123.com/ 多线程介绍: 多线程是为了同步完成多项任务,通过提
阅读全文
摘要:安装mysql: 在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html 如果提示没有.NET Framework框架。那么就在提示框中找到下载链接,下载一个就可以了。 如果提示没有Microsoft Virtual C++ x6
阅读全文
摘要:csv文件处理 读取csv文件: import csv with open('stock.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) for x in reader: print(x) 这样操作,以后获取数据的时候,就
阅读全文
摘要:json文件处理: 什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON
阅读全文