03 2020 档案
摘要:[toc] 1.网页分析 庚子年初,各种大事件不期而至,又赶上最近气温突变,所以写个爬虫来爬取下中国天气网,并通过图表反映气温最低的前20个城市。 中国天气网:http://www.weather.com.cn/textFC/hb.shtml 打开后如下图: 从图中可以看到所有城市按照地区划分了,并
阅读全文
摘要:[toc] 匿名函数就是不需要显式的指定函数。 1.基础案例 运行结果: 2.结合其他函数使用 2.1 结合三元运算符 运行结果: 2.2 结合map函数 运行结果:
阅读全文
摘要:[toc] SQL的全称是Structured Query Language(结构化查询语言) SQL是数据库语言,Oracle使用该语言存储和检索数据,表是数据库的主要对象,用于存储数据。 1.SQL类别 数据定义语言(DDL) 数据操纵语言(DML) 事务控制语言(TCL) 数据控制语言(DCL
阅读全文
摘要:[toc] Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag NavigableString BeautifulSoup Comment 上面4种对象均可以通过以下语法查看详细的源码 1.Tag Tag通俗来讲就是
阅读全文
摘要:[toc] 1.Oracle公司简介 1977年6月,Larry Ellison(拉里埃里森) 与 Bob Miner、Ed Oates ,在硅谷共同创办了SDL(软件开发实验室,Software Development Laboratories)。 1978年,SDL发布了Oracle 1 版本。
阅读全文
摘要:[toc] 1.常用CSS选择器介绍 以下是一个包含常用类选择器的案例,在案例后有具体的选择器使用介绍 1.1 标签选择器 根据标签的名字选择。示例代码如下: 1.2 类名选择器 根据类名选择,那么需要在类名前加一个点。示例代码如下: 1.3 id选择器 根据id选择,那么需要在id的前面加一个 号
阅读全文
摘要:[toc] 在下面的内容中引用了前程无忧网的部分源码进行案例演示,以下全部都是以实战案例来对BeautifulSoup4库提取数据进行解析。 前程无忧网部分源码:(在下述代码中将使用 代表以下代码) 1.获取所有的p标签 上述代码中输出的p是一个tag类型,但是from bs4.element im
阅读全文
摘要:[toc] 1.简介 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大
阅读全文
摘要:[toc] 1.需求描述 爬取hao6v电影网的数据,先通过xpath解析第一个页面,获取到每部电影的url详情页地址,然后解析详情页地址,获取出所需的数据 页面如下: 2.实现代码 运行结果如下:
阅读全文
摘要:[toc] 1.下载XPath Helper 链接:https://pan.baidu.com/s/1ZWxsxauHaBSkK2ItjhPNwQ 提取码:9yg2 2.解压与安装 2.1 解压 先解压xpath helper.rar,下载后的压缩包如下图: 解压后即可得到文件:xpath help
阅读全文
摘要:[toc] 1.需求描述 爬取豆瓣即将上映的电影信息,如下图,地址: 需要将每部电影的【名称、地区、时长、导演、主演】等信息爬取下来,以下是具体实现代码。 2.实现代码 代码运行结果截图:
阅读全文
摘要:[toc] 1.什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 2.XPath开发工具 Chrome插件XPath Helper(启动快捷键:ctrl + shift + x) F
阅读全文
摘要:[toc] 1.需求描述 在 下有以下文件,如下图: 要求 : 将Logan开头的文件名全部修改为工作文档 其他的文件名称全部添加前缀"工作文档_" 实现后的结果如下: 2.实现代码 上述代码虽然也能实现,但是有个问题,如果【其他】文件夹下有文件,也会被修改文件名,这显然不是我们所希望的,所以就有了
阅读全文
摘要:[toc] 虽然Python中的标准库urllib模块已经可以满足我们的大多数需求,但是它的API使用起来让人感觉不是很好,而requests宣传是 ,说明使用更简洁方便。 1.安装和文档地址 安装 文档地址 中文文档:https://cn.python requests.org/zh_CN/lat
阅读全文
摘要:[toc] 1.操作数据 2.保存数据 保存数据最安全的方法是使用 方法 案例演示: 注意:该操作将覆盖已有文件而不会给出警告 3.装载文件 导入 来打开已有的工作簿:
阅读全文
摘要:[toc] 1.什么是cookie? 在网站中,http的请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登陆服务器返回一些数据(cookie)给浏览器,然后浏览器保存到本地,当该用户第二次
阅读全文
摘要:[toc] 很多网站会监测一段时间内某个IP访问的次数(通过数据流量和日志等),如果访问的次数多的不像正常人,它就会把这个IP地址封了。所以我们就需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬。 常用的代理服务器: 西刺免费代理IP:https://www.x
阅读全文
摘要:[toc] 需要操作Excel,那么首先需要的操作工作簿对象,这是Excel的根本,以下是集中操作方法。 1.创建工作簿 1.1 直接使用 没必要先在文件系统上创建一个工作簿,然后再操作它,在Python中可以直接导入Workbook类并开始使用 1.2 创建的工作簿至少含有一个工作表 1.3 创建
阅读全文
摘要:[toc] 1.安装第三方库 1.1 常规安装 1.2 快速安装 切换到国内的镜像源,速度相对会快些,国内镜像源如下: (1)阿里云 https://mirrors.aliyun.com/pypi/simple/ (2)豆瓣 https://pypi.douban.com/simple/ (3)清华
阅读全文
摘要:[toc] 1.urllib库简介 库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。 2.urlopen函数 在 的urllib库中,所有和网络请求相关的方法,都被集成到 模块下了,下面是urlopen函数的基本使用: 上述代码
阅读全文
摘要:[toc] 1.什么是网络爬虫? 通俗理解:爬虫就是一个模拟人类请求网站行为的程序。可以自动请求网页,并将数据抓取下来,然后使用一定的规则提取有价值的数据。 2.爬虫的分类 通用网络爬虫 百度 谷歌 雅虎...搜索引擎 特点:关键字获取既定的目标,覆盖率很大 聚焦网络爬虫 特点:到互联网上有选择有目
阅读全文
摘要:[toc] 1.环境描述 2.下载源码包并安装依赖包 链接: "https://pan.baidu.com/s/166MCqR2Svd3 30ARS0vg5w " 提取码:r3qj 2.1 安装依赖包 3.上传源码包Linux服务器并解压预编译 3.1 上传解压 3.2 预编译 出现下图表示cmak
阅读全文
摘要:[toc] 1.概述 Python有三种读取文本的方式,分别是: read() readline() readlines() 2.三种方式的优缺点分析 2.1 read() 最简单的一种方法,一次性读取文件的所有内容放入到一个大字符串中,即存在内存中。 优点: 方便、简单 一次性独读出文件放在一个大
阅读全文
【DataStage】报错:The limit that can be displayed has been exceeded.Please redefine your search criteria
摘要:[toc] 1.问题描述 从db2数据库导入表结构信息的时候,每次填完连接信息点击next的时候,就出现卡顿,整个DS都卡了(此处是11.5版本),等待卡顿完毕后,报错信息如下图: 错误信息: 翻译:已超出可显示的限制。请重新定义搜索条件 2.问题解决 根据提示的错误信息推测是表太多,导致了DS无法
阅读全文
摘要:1.需求描述 现在有win10电脑一台,但是由于办公环境需要随时切换内外网,所以经常需要手工配置IP地址。内外需要配置固定IP地址,外网需要配置为自动获取IP地址 2.实现过程 2.1 代码部分 @echo off rem 强制获取管理员权限 %1 mshta vbscript:CreateObje
阅读全文
摘要:[toc] 1.需求描述 现存在以下文件列表: 需要只提取出文件名,而不需要后缀名,如:test1、test2 2.实现代码 c [root@localhost logan] for file_name in ;do basename $file_name .txt;done test1 test2
阅读全文
摘要:[toc] 1.常用的文件测试操作符 |常用的文件测试操作符|说明| | | | | d 文件,d的全称是directory|文件存在且为目录则为真| | f 文件,f的全称是file|文件存在且为普通文件则为真| | e 文件,e的全称是exist|文件存在则为真, e不辨别是文件还是目录| |
阅读全文
摘要:[toc] 通常,在bash的各种条件结构和流程控制结构中都要进行各种测试,然后根据测试结果执行不同的操作。执行条件测试通常会返回"真"或"假",类似执行命令,返回0是真,返回非0是假。 1.条件测试常用的方法 |条件测试语法|说明| | | | |语法1: |利用test命令进行条, test后有
阅读全文
摘要:[toc] 1.使用双小括号条件表达式 打印结果: 2.使用双中括号条件表达式 打印结果: 3.使用单中括号条件表达式 打印结果: 4.使用until命令 打印结果: 点击查看 "【shell】各种括号()、(())、[]、[[]]、{}的使用"
阅读全文
摘要:[toc] 1.脚本运行的相关用法和说明 |用法|说明| | | | | |将脚本放在后台运行(常用方法)| | | 停止执行 当前任务或脚本| | | 暂停执行 当前任务或脚本| | |把当前任务或脚本放到 后台执行 ,此处可以理解为background| | |把当前脚本或任务放到 前台执行 ,
阅读全文