上一页 1 2 3 4 5 6 ··· 29 下一页
摘要: 一、CSS选择器 二、CSS选择器实例 按照class属性值取出网页信息 from scrapy import Selector html=""" <html lang="en"> <head> <meta charset="UTF-8"> <title>bobby基本信息</title> <scr 阅读全文
posted @ 2024-05-20 23:12 leagueandlegends 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 一、安装Xpath解析库-scrapy中的selector win+r打开cmd,输入pip install wheel,先安装wheel库了才能安装.whl文件。 安装lxml库 到https://pypi.org/project/lxml/#files下载对应python版本的lxml库 切到l 阅读全文
posted @ 2024-05-19 15:57 leagueandlegends 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 一、安装BeautifulSoup库 可以现在目前python安装了哪些包 安装beautifulsoup 二、beautifulsoup官网 https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 三、beautifulsoup的主要解析器 四 阅读全文
posted @ 2024-05-19 09:00 leagueandlegends 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 静态网页就是直接固定的数据,动态网页就是有交互的网页,比如数据通过ajax请求动态加载了数据 百度百科,维基百科这种很少变动的网页就是静态网页。有些博客也是静态网页。 静态网页相对稳定,响应快。利于SEO 动态网页体验好,数据部分加载,对服务器友好,扩展性好。 阅读全文
posted @ 2024-05-12 16:07 leagueandlegends 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫数据采集 1、按照采集对象分类 1、全网采集 2、全站采集 3、具体网站的指定数据采集 2、采集方案分类 1、利用http协议采集-页面分析 2、利用api接口采集-app数据采集 3、利用目标网站的api采集-微博、github、twitter、facebook 二、request库爬虫 阅读全文
posted @ 2024-05-10 23:25 leagueandlegends 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 一、HTTP协议定义 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果, 阅读全文
posted @ 2024-05-03 21:46 leagueandlegends 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 一、Socket是什么 Socket本身不是一个协议,是一个套接字,操作系统为了方便大家直接使用tcp协议而存在的一个抽象层,它把复杂的TCP/IP协议隐藏在接口后面。 二、Socket编程 三、socket编程实例 socket通信实例一: 程序结构: socket_server.py #sock 阅读全文
posted @ 2024-05-03 11:52 leagueandlegends 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 一、什么是爬虫 爬虫(Crawler)是一种按照既定规则,在网络上自动爬取信息的程序或脚本。也称为网际网路蜘蛛(Internet Spider)或网络机器人(Web Robot)。爬虫可以自动抓取网络信息,主要用于网站数据采集、内容监测等。 二、爬虫能做什么 1、搜索引擎 搜索引擎利用爬虫发现网络上 阅读全文
posted @ 2024-05-02 18:53 leagueandlegends 阅读(62) 评论(0) 推荐(0) 编辑
摘要: 虚拟环境的作用是用于不同项目的不同依赖,或者不同项目依赖的python版本不同 一、虚拟环境有多种 -Virtualenv 第三方,使用比较多 -pipenv 官方的 二、需要安装两个模块 pip3 install virtualenv 第三方虚拟环境 pip3 install virtualenv 阅读全文
posted @ 2024-05-02 01:15 leagueandlegends 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 一、为什么要使用python处理文件 文件处理管理可分为两种,一种是可视化、手动化,学习成本低,处理数量有限。另一种是编程化、自动化,有一定学习成本,可以基于逻辑处理。计算机的常项是对既定规则的发挥,这个发挥作用于"批量"这个层面。 二、相对路径与绝对路径 相对路径:被操作的文件相对你当前运行的程序 阅读全文
posted @ 2024-05-01 00:09 leagueandlegends 阅读(23) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 29 下一页