04 2020 档案
摘要:https://blog.csdn.net/jiduochou963/article/details/87564467
阅读全文
摘要:redis数据库基础 一、Redis介绍 Redis 是一个高性能的key value数据格式的内存缓存,NoSQL数据库。NOSQL:not only sql,泛指非关系型数据库。关系型数据库: (mysql, oracle, sql server, sqlite) 非关系型数据库[ redis,
阅读全文
摘要:1.elinks lynx like替代角色模式WWW的浏览器 例如: elinks dump "http://www.baidu.com" yum search elinks 如果没有这个工具,可查看是需要下载哪些包 2.wget 这个会将访问的首页下载到本地 "root@el5 mq2 ~] w
阅读全文
摘要:需求 scrapy+redis分布式爬取58同城北京全站二手房数据 环境 win10 pycharm2019.2 python3.7 scrapy模块| scrapy_redis模块|redis数据库 需求 基于Spider或者CrawlSpider进行二手房信息的爬取 本机搭建分布式环境对二手房信
阅读全文
摘要:python全栈开发学习笔记 第一章 计算机基础 第二章Python入门 第三章数据类型 第四章文件操作 第五章函数 第六章 模块 第七章 面向对象 第八章 网络编程 第九章 并发编程 第十章 数据库 第十一章 前端开发-html 第十一章 前端开发-css 附加:js特效 15个小demo 第十一
阅读全文
摘要:爬虫相关笔记 01 爬虫简介 02 requests模块 03 数据解析 04 验证码识别 05 request高级操作 06 高性能异步爬虫 07 selenium模块基本使用 08 scrapy框架 新 scrapy框架 09 M3U8流视频数据爬虫 10 MongoDB数据存储 11 urli
阅读全文
摘要:简介 selenium 是一种浏览器自动化的工具,所谓的自动化是指,我们可以通过代码的形式制定一系列的行为动作,然后执行代码,这些动作就会同步触发在浏览器中。 环境安装 下载安装selenium:pip install selenium 下载浏览器驱动程序: http://chromedriver.
阅读全文
摘要:06 高性能异步爬虫 高性能异步爬虫 线程and线程池 引入 很多同学对于异步这个概念只是停留在了“听说很NB”的认知层面上,很少有人能够在项目中真正的使用异步实现高性能的相关操作。本节课,咱们就一起来学习一下,爬虫中如何使用异步实现高性能的数据爬取操作。 背景 其实爬虫的本质就是client发请求
阅读全文
摘要:简历模板下载拓展 import requests from lxml import etree import os headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36
阅读全文
摘要:04 验证码识别 what is 验证码? 是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。 验证码
阅读全文
摘要:03 数据解析 引入 回顾requests模块实现数据爬取的流程 指定url 发起请求 获取响应数据 持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数
阅读全文
摘要:02 requests模块 requests模块初始 引入 在python实现的网络爬虫中,用于网络请求发送的模块有两种,第一种为urllib模块,第二种为requests模块。urllib模块是一种比较古老的模块,在使用的过程中较为繁琐和不便。当requests模块出现后,就快速的代替了urlli
阅读全文
摘要:01 爬虫简介 what is 爬虫? \ 形象概念: 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它。 \ 学术概念:爬虫就是通过编写程序 模拟 浏览器上网,让其去
阅读全文
摘要:前言:很多小伙伴对于get和post都是浅层次的理解。这篇文章将带你从通俗易懂的语言上深入的了解get和post。 一,什么是Get/Post? 在了解get和post之前,我们要先了解TCP/IP和http。简单来说,TCP/IP是网络架构,TCP/IP是五层网络架构(区分于OSI七层架构),TC
阅读全文
摘要:1.scrapy简介 1.1 scrapy初识 什么是框架? 所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板,该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。 如何学习框架? 对于刚接触编程或者初级程序员来讲,对于一个新的框架,只需要掌握该框架的作用及其
阅读全文
摘要:一个问题引发的血案: 用python向redis写入数据报错: redis.exceptions.DataError: Invalid input of type: 'dict'. Convert to a byte, string or number first. 查看redis的版本: pip3
阅读全文
摘要:https://www.runoob.com/redis/redis commands.html
阅读全文
摘要:```python from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.common.exceptions import UnexpectedAlertPresentException from time import sleep
阅读全文
摘要:一.urllib2方法 二、requests方法
阅读全文
摘要:```python >>> class a(object): pass >>> o=a() >>> dir(o) ['__class__', '__delattr__', '__dict__', '__doc__', '__format__', '__getattribute__', '__hash__', '__init__', '__module__', '__new__', &
阅读全文
摘要:argparse是python用于解析命令行参数和选项的标准模块,类似于linux中的ls指令,后面可以跟着不同的参数选项以实现不同的功能,argparse就可以解析命令行然后执行相应的操作。 argparse 使用 使用argparse 配置命令行参数时,需要三步: 1. 创建 ArgumentP
阅读全文
摘要:pyinstaller简明教程 安装pyinstaller pip install pyinstaller是最简单的安装方式,但也常常由于各种原因报错,这就需要我们通过whl文件来下载,但是whl文件安装也有考究,具体参考我之前的教程:Python安装whl文件那些坑,下载whl一般可以在whl文件
阅读全文
摘要:1、首先脑补一个知识点,我们在代码中经常看到 webkit或 moz,那这些有什么作用了,看下代码就知道了: 2、好了,呼吸灯的原理就是修改标签的不透明度,主要利用到css3的animation动画 3、css代码是这样的: 4、学习css3:http://www.w3school.com.cn/c
阅读全文