随笔分类 - 基础
关于一些文件操作和应用使用方法的基础
摘要:Shell 编程 一、 概述 1、 shell 名词解释 kernel linux 内核主要为了和硬件打交道 shell 命令解释器 shell 是一个用 C 语言编写的程序,它是用户使用 linux 的桥梁,shell 既是一种命令语言,又是一种程序设计语言 shell 是指一种应用程序,这个应用
阅读全文
摘要:Linux 基础命令 一、 简介 1、 基本介绍 Linux 遵循 GNU 通用公共许可证(GPL),任何个人和机构都可以自由地使用 Linux 的所有底层源代码,也可以自由地修改和再发布。 由于 Linux 是自由软件,任何人都可以创建一个符合自己需求的 Linux 发行版。 目前主流的 Linu
阅读全文
摘要:验证码处理 一、 字符验证码 通过某个程序,计算机产生一个字符串,一般四位,包含数字、字母、中文 1、 难点 噪点 干扰线 重叠 颜色 变形 经过这么一些的操作之后,程序会生成一张图片,而我们要做的就是输入和图片里面的文本信息一致,才算通过校验 2、 图像处理 在数字世界中,有色彩模式这一算法,来表
阅读全文
摘要:Scrapy 框架 一、 简介 1、 介绍 Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架,该框架使用纯 Python 语言编写。Scrapy 框架应用广泛,常用于数据采集、网络监测,以及自动化测试等 2、 环境配置 安装 pywin32 pip install pywin32 安
阅读全文
摘要:‘ 爬虫高阶 一、 验证码识别 1、 简介 验证码和爬虫之间的爱恨情仇? 反爬机制:验证码,识别验证码图片中的数据,用于登录验证 识别验证码的操作: 人工肉眼识别(不推荐) 第三方自动识别 打码平台:超级鹰 2、 使用方法 注册 登录 下载开发者文档:【http://www.chaojiying.c
阅读全文
摘要:selenium 基础语法 一、 环境配置 1、 安装环境 安装 selenium 第三方库 pip install selenium 下载浏览器驱动: Firefox浏览器驱动:geckodriver Chrome浏览器驱动:chromedriver , taobao备用地址 IE浏览器驱动:IE
阅读全文
摘要:爬虫基础 一、 基本概念 1、 简介 1.1 概念 什么是爬虫? 爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 爬虫的价值: 抓取互联网上面的大量的数据,可以将这些数据商业化和商品化 爬虫的合法性: 爬虫在法律上是不被禁止的 但是其具有违法风险 善意爬虫——百度······
阅读全文
摘要:requests库 一、 基本概念 1、 简介 requests 模块是 python 基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20
阅读全文
摘要:概述 用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉。对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问;而对于访问次数,就需要使用代理 IP 来帮忙了,使用多个代理 IP 轮换着去访问目标网址可以有
阅读全文
摘要:简介 Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 官方解释 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整
阅读全文
摘要:简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 安装 pip install lxml 本文示例的html
阅读全文
摘要:MongoDB简介 介绍 MongoDB是一种可扩展的敏捷NoSQL数据库,其中的Mongo源自单词humongous。MongoDB基于NoSQL文档存储模型;在这种模型中,数据对象被存储为集合中的文档,而不是传统关系型数据库中的行和列。文档是以二进制JSON(BSON)对象的方式存储的 其对大小
阅读全文
摘要:NoSQL 1、概念 not only sql 其指的是非关系型数据库,是对不同于传统的关系型数据库的数据库管理的统称,NoSQL是web2.0时代海量数据的产物 2、特点 不支持SQL语法 NoSQL的世界中没有一种通用的语法,每种NoSQL数据库都有自己的语法,以及擅长的业务场景 读写性能高 N
阅读全文
摘要:正则表达式 一、 快速开始 1、 简介 正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。 正则表达式是繁琐的,但它是强大的,学会之后的应用
阅读全文
摘要:数据库 数据库就类似于一个文件夹,里面放了很多Excel表格,但是数据库是专门用来管理数据的软件,所以效率要远远高于Excel或文本的存储方式 数据库管理系统由一个相互关联的数据的集合和一组用以访问这些数据的程序组成。这个数据集合通常叫做数据库 分类 关系型数据库:关系型数据库基于关系模型,使用一系
阅读全文
摘要:ftp连接 使用格式:ftp [-v] [-d] [-i] [-n] [-g] [-s:filename] [-a] [-w:windowsize] [computer] -v:禁止显示远程服务器响应信息 -n:禁止自动登录 -i:多文件传输过程中关闭交互提示 -d:启用调试,显示所有客户端与服务器
阅读全文
摘要:chcp 修改默认字符集 chcp 936默认中文 chcp 65001 第一部分 appwiz.cpl:程序和功能 calc:启动计算器 chkdsk.exe:Chkdsk磁盘检查(管理员身份运行命令提示符) cleanmgr: 打开磁盘清理工具 cmd.exe:CMD命令提示符 自动关机命令 -
阅读全文
摘要:运行框命令(win+r) appwiz.cpl:程序和功能 calc:启动计算器 certmgr.msc:证书管理实用程序 charmap:启动字符映射表 chkdsk.exe:Chkdsk磁盘检查(管理员身份运行命令提示符) cleanmgr: 打开磁盘清理工具 cliconfg:SQL SERV
阅读全文
摘要:CSS基础语法(一) 一、CSS简介 CSS是层叠样式表的简称,其是一门标记语言 CSS主要用于设置HTML页面中的文本内容(字体、大小、对齐方式等)、图形处理(宽高、边框样式、边距等)以及版面的布局和外观显示样式 1、CSS语法规范 使用HTML时,需要遵从一定的规范,CSS也是如此。想要熟练地使
阅读全文
摘要:HTML基础语法 一、网页 网页是指在英特网上根据一定的规则,使用HTML等制作的用于展示特定内容相关的网页集合 HTML不是一种编程语言,而是一种标记语言(标记标签);HTML是指超文本标记语言——可以加入图片、音乐等超越了文本限制|超级链接文本,它是用来描述一个网页的一种语言 浏览器:IE,Ch
阅读全文