摘要:
1、查看盘符 查看U盘对应的盘符: df -h kylin@kylin:~/Download/deb包/ventoy-1.0.11$ df -h 文件系统 容量 已用 可用 已用% 挂载点 udev 3.9G 0 3.9G 0% /dev tmpfs 785M 3.4M 782M 1% /run . 阅读全文
摘要:
Scrapy框架介绍 什么是scrapy框架? Scrapy框架是封装了很多功能并具有很强的通用性的爬虫框架。 Scrapy框架的功能 高性能的持久化存储 异步的数据下载 高性能的数据解析 分布式应用 Scrapy框架的基本使用 环境安装: linux & Mac:pip install scrap 阅读全文
摘要:
#Form组件 Form组件的作用: 对前段Form表单POST的数据进行格式效验 常用参数: is_valid():如果Form表单POST的数据都能通过,就会返回True,否则返回Flase cleared_data: 数据效验通过就会以字典的形式存储在里面 errors:存储错误字段和信息 。 阅读全文
摘要:
异步爬虫 异步的由来 在我们爬取网站时,通常会有阻塞操作,比如:请求页面,IO等, 如果说爬取的网站数量不是很多,对于阻塞的时间就不会有太大的感官性,那如果数量成百上千,甚至上万呢? 所以需要一种方法来解决阻塞的问题,也就是采用异步的方式 异步的实现方式: 方式1:多线程、多进程 方式2:线程池、进 阅读全文
摘要:
分布式爬虫介绍 什么是分布式爬虫? 分布式爬虫是将多台电脑构建成一个机群,然后将爬虫程序部署在机群内的每台电脑上进行执行爬取任务,最终将所有的数据进行 分布式爬虫的作用 提高爬取效率 分布式爬虫的简单实现 由于原生scrapy的五大组件的不能实现共享,数据无法整合,所以必须通过scrapy和scra 阅读全文
摘要:
Selenium模块 作用 便捷的获取页面中动态加载的数据 便捷的模拟登录 简单使用 环境安装: pip install selenium 根据浏览器版本下载web驱动:http://npm.taobao.org/mirrors/chromedriver (谷歌) Selenium的使用流程: # 阅读全文
摘要:
爬虫开篇 何为爬虫? 爬虫是通过编写程序,模拟浏览器,对互联网数据进行抓取的过程 爬虫的应用场景 通用爬虫 :抓取系统的重要组成部分,抓取的是一整张页面数据 聚焦爬虫 :建立在通用爬虫的基础上 ,抓取的是页面中的特定的局部内容 增量式爬虫 :检查网站中数据更新的情况,只会抓取网站中最新的数据 爬虫的 阅读全文
摘要:
channel 什么是channel? channel是第三方工具包,对于不支持websocket协议的框架可以借助此包实现websocket 安装 终端安装: pip3 install channel pycharm安装: Project Interprete 搜索 “channel”即可 配置 阅读全文
摘要:
最近想写个GUI小程序,所以就使用了python内置的Tkinter包,但是导入时竟然提示没有这个包? 使用命令搜索了下: sudo apt search python3-tk ,显示已经安装了。又重启项目重新导入了下,结果还是不行 kylin@kylin:~$ sudo apt search py 阅读全文
摘要:
Content_Type 组件 用法: model.py: from django.db import models # Create your models here. class Food(models.Model): title = models.CharField(max_length=32 阅读全文