Torres-tao  
03 2022 档案
  • Python3 OS 文件/目录方法
    摘要:链接1:https://www.runoob.com/python3/python3-os-file-methods.html 链接2:https://www.cnblogs.com/ltkekeli1229/p/15709442.html 阅读全文
    posted @ 2022-03-31 10:35 雷子锅 阅读(49) 评论(0) 推荐(0)
  • python3-requests模块
    摘要:安装 pip3 install requests 常用请求方法 requests.get() 该方法用于GET请求,表示向网站发起请求,获取页面的响应对象,语法如下: requests.get(url,headers=headers,params,timeout) 参数说明: url:要抓取的url 阅读全文
    posted @ 2022-03-31 10:33 雷子锅 阅读(399) 评论(0) 推荐(0)
  • BS4解析库使用
    摘要:BS4解析库 Beautiful Soup简称BS4(4表示版本号),是一个python第三方库,它可以从HTML或XML文档中快速提取指定的数据。 BS4安装 pip3 install bs4 #BS4解析页面时,需要依赖文档解析器,所以还需要安装lxml作为解析库 pip3 install lx 阅读全文
    posted @ 2022-03-29 19:53 雷子锅 阅读(279) 评论(0) 推荐(0)
  • 初识爬虫分类和HTML组成
    摘要:爬虫分类 爬虫可分为三类:通用网络爬虫、聚焦网络爬虫和增量式网络爬虫 通用网络爬虫 通用网络爬虫是搜索引擎的重要组成部分,通用网络爬虫需要遵守robots协议,网站通过此协议告诉搜索引擎那些页面可以抓取,哪些页面不允许抓取。 robots协议:是一种“约定俗成”的协议,并不具备法律效力,它体现了互联 阅读全文
    posted @ 2022-03-29 10:31 雷子锅 阅读(231) 评论(0) 推荐(0)
  • 文本处理三剑客
    摘要:1、简介 ​ awk、grep、sed是linux操作文本的三大利器,合称文本三剑客。三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂。grep更适合单纯地查找或匹配文本;sed更适合编辑匹配到的文本,awk更适合格式化文本,对文本进行较复杂格式处理。 2、grep 2. 阅读全文
    posted @ 2022-03-25 16:16 雷子锅 阅读(1444) 评论(0) 推荐(0)
  • maven命令package、install、deploy之间的区别
    摘要:maven命令package、install、deploy之间的区别 ​ 在用maven构建java项目时,最常用的打包命令有mvn package、mvn install、deploy,这三个命令都可以完成打jar包或war包的功能,但这三个命令还是有区别的。接下来分别执行这三个命令来分析所执行的 阅读全文
    posted @ 2022-03-24 17:56 雷子锅 阅读(345) 评论(0) 推荐(0)
  • Python3 爬虫 - Selenium模拟用户操作
    摘要:Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种爬取方式非常有效。 1、基本用法 #!/usr/bin/python3 #coding=utf 阅读全文
    posted @ 2022-03-24 17:28 雷子锅 阅读(528) 评论(0) 推荐(0)
  • python读写文件
    摘要:open函数语法 ​ open(filename,mode=‘rt’):用于打开一个文件,返回用来操作此文件的文件流对象,如果打开失败,则会触发OSError错误通知。 mode模式字符含义 字符 含义 r 以只读方式打开(默认) w 以只写方式打开,删除原有文件内容(如果文件不存在,则创建该文件并 阅读全文
    posted @ 2022-03-24 17:24 雷子锅 阅读(131) 评论(0) 推荐(0)
  • python-time模块
    摘要:1、常用函数 time.time():返回当前的时间戳 time.localtime([secs]):默认将当前时间戳转换成当前时区的struct_time time.sleep(secs):计时器 time.strftime(format[,t]):把一个struct_time转换成格式化的时间字 阅读全文
    posted @ 2022-03-24 17:23 雷子锅 阅读(41) 评论(0) 推荐(0)
  • 鸭子类型
    摘要:1、何为“鸭子类型” python崇尚鸭子模型 ​ 对于鸭子类型,常见的说法是:“当看到一只鸟走起来像鸭子,游泳起来像鸭子,叫起来也像鸭子,那么这只鸟就可以被称为鸭子” ​ 鸭子类型在程序设计中是动态类型的一种风格。在这种风格中,一个对象有效的语义,不是由继承特定的类或者实现特定的接口,而是由“当前 阅读全文
    posted @ 2022-03-24 17:21 雷子锅 阅读(111) 评论(0) 推荐(0)
  • 网页解析--XPath入门使用
    摘要:Xpath表达式 Xpath(XML Path Language):XML路径语言,它是一门在XML文档中查找信息的语言,最初被用来搜寻XML文档,同时它也适用于搜索HTML文档。因此,在爬虫过程中可以使用XPath来提取相应的数据。 XML是一种遵守W3C标准的标记语言,类似于HTML,只是两者的 阅读全文
    posted @ 2022-03-24 17:19 雷子锅 阅读(205) 评论(0) 推荐(0)
  • python高阶函数
    摘要:高阶函数满足以下条件之一: 函数接受一个或多个函数作为参数传入; 函数返回一个函数 1、map函数 ​ map(func,*iterable):返回一个可迭代对象,此迭代对象用函数func对可迭代对象iterable中的每一个函数作为参数计算后得一结果,当最短的一个可迭代对象不再提供数据时可迭代对象 阅读全文
    posted @ 2022-03-24 17:08 雷子锅 阅读(58) 评论(0) 推荐(0)
  • python面向对象编程三大特性
    摘要:面向对象:以对象为中心的编程思想,通过指挥对象实现具体功能 面向过程:以过程为中心的编程思想,实现具体功能都是自己实现 1、类的描述 类: 类是对现实生活类中具有共同属性和行为的实物的抽象 类是对象的数据类型,类是具有相同属性和行为的一组对象的集合 类就是对现实事务的一种描述 对象: ​ 是以类为模 阅读全文
    posted @ 2022-03-24 15:18 雷子锅 阅读(217) 评论(0) 推荐(0)
  • python-re模块
    摘要:1、字符 ​ .:匹配任意字符,除换行符\n之外,.abc匹配abc。 ​ \:转义字符,使后一个字符改变原来的意思,a.bc匹配abc ​ [...]:字符集,对应字符集中的任意字符,第一个字符是^则取反。a[bc]d匹配abd和acd 2、预定义字符集 ​ \d:数字[0-9] ​ \D:非数字 阅读全文
    posted @ 2022-03-24 14:52 雷子锅 阅读(94) 评论(0) 推荐(0)