2024 年 2月随笔档案 - 会秃头的小白

selenium处理iframe

摘要：- 如果定位的标签在iframe中，需要先切换到iframe中 - 切换到iframe: driver.switch_to.frame('iframe的id属性值') -动作链(拖动):from selenium.webdriver import ActionChains - 实例化一个动作链对象阅读全文

posted @ 2024-02-29 22:16 会秃头的小白阅读(64) 评论(0) 推荐(0) 编辑

问题：python程序在idea中运行可以在终端中运行但是点击运行按钮运行不了

摘要：代码中前面的导包还是报错但是我明明已经下载完了可能原因是我idea环境的问题因为我用python命令直接运行是可以的说明python环境没有问题只能是编译器的问题但是我还没有找到怎么改这个错误阅读全文

posted @ 2024-02-29 21:48 会秃头的小白阅读(54) 评论(0) 推荐(0) 编辑

selenium

摘要：笔记 selenium 模块的基本使用问题：selenium模块和爬虫之间具有怎样的关联 - 便捷的获取网站中动态加载的数据 - 便捷实现模拟登录什么是selenium模块？ - 基于浏览器自动化的一个模块 selenium使用流程： - 环境的安装 pip install selenium - 阅读全文

posted @ 2024-02-29 21:45 会秃头的小白阅读(12) 评论(0) 推荐(0) 编辑

代理

摘要：代码找一个可以用的ip然后加入代理用代理ip去访问 import requests # 114.255.132.60:3128 proxies ={ "https":"http://114.255.132.60:3128" } response = requests.get("http://ww 阅读全文

posted @ 2024-02-28 22:12 会秃头的小白阅读(33) 评论(0) 推荐(0) 编辑

防盗链——爬取梨视频

摘要：这个爬虫做了很久有几个问题 1.防盗链的问题：如下图所示Referer 这个就是回溯上一个网页如果上一个网页不是Referer就会报错这个就是我没有从那个网页访问的结果 2.在我自己爬取的时候不知道mrd是什么东西以为跟countId一样是一个标识的东西结果这只是一个随机的数代码 # 防阅读全文

posted @ 2024-02-28 21:59 会秃头的小白阅读(39) 评论(0) 推荐(0) 编辑

爬取17k小说书架

摘要：# 登录 -> 得到cookie # 带着cookie去访问 -> 得到数据 # 必须得把上面两个操作连起来 # 我们可以使用session进行请求 -> session 你可以认为是一连串的请求，在这个过程中的cookie不会丢失说一说过程中遇到的问题：刚开始我按着视频做的时候他没有heade 阅读全文

posted @ 2024-02-28 20:03 会秃头的小白阅读(352) 评论(0) 推荐(0) 编辑

架构漫谈——1500字

摘要：架构漫谈：首先是什么是架构，读完之后我自己的对架构的理解就是一种为了方便人们解决问题的一种方案，具体是怎么方便解决问题的呢? 总结下来：先对问题进行分析，再对问题进行切分，由不同的人进行不同的工作，然后使这些部分有机的结合为一个整体，这就是架构，是一个方便解决问题的过程。接下来，我们谈为什么会产阅读全文

posted @ 2024-02-28 17:26 会秃头的小白阅读(8) 评论(0) 推荐(0) 编辑

异步爬虫

摘要：高性能异步爬虫目的：在爬虫中使用异步实现高性能的数据爬取异步爬虫的方式： - 多线程，多进程（不建议）好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行弊端：无法无限制的开启多线程或者多进程 - 线程池进程池好处：我们可以降低创建线程和销毁线程的频率，从而降低系统的开阅读全文

posted @ 2024-02-27 17:04 会秃头的小白阅读(20) 评论(0) 推荐(0) 编辑

爬取所有城市名称

摘要：from lxml import etree import requests #爬取所有城市名称 if __name__ == '__main__': url = 'https://www.aqistudy.cn/historydata/' headers = { 'User-Agent':'Moz 阅读全文

posted @ 2024-02-26 21:23 会秃头的小白阅读(13) 评论(0) 推荐(0) 编辑

爬取彼岸图库中的图片数据

摘要：from lxml import etree import requests import os # 爬取彼岸图库中的图片数据 if __name__ == '__main__': #爬取到页面源码数据 url = 'https://pic.netbian.com/4kmeinv/' headers 阅读全文

posted @ 2024-02-26 18:37 会秃头的小白阅读(12) 评论(0) 推荐(0) 编辑

爬取58二手房数据

摘要：from lxml import etree import requests # 爬取58二手房 if __name__ == '__main__': #爬取到页面源码数据 url = 'https://m.58.com/bj/ershoufang/?reform=pcfront&PGTID=0d0 阅读全文

posted @ 2024-02-26 18:03 会秃头的小白阅读(24) 评论(0) 推荐(0) 编辑

xpath

摘要：笔记 xpath解析原理： - 数据解析原理： -1.实例化一个etree对象，且将页面源码数据加载到该对象中 -2.调用etree对象中xpath方法，编写xpath表达式，提取数据 - 环境安装： - pip install lxml - 实例化一个etree对象: from lxml impo 阅读全文

posted @ 2024-02-26 17:16 会秃头的小白阅读(7) 评论(0) 推荐(0) 编辑

bs4

摘要：bs4解析原理： - 数据解析原理： -1.标签定位 -2.提取标签，标签属性中存储的数据值 - bs4数据解析的原理： -1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中 -2.通过调用BeautifulSoup对象中相关的属性或者方法，就可以获取页面中需要解析的数据阅读全文

posted @ 2024-02-25 00:22 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

正则解析

摘要：import requests import os import re if __name__ == '__main__': # 创建一个文件夹，保存所有的图片 if not os.path.exists("./pictureS"): os.mkdir("./pictureS") # 解析图片的ur 阅读全文

posted @ 2024-02-24 01:39 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

爬取一张图片

摘要：import requests if __name__ == '__main__': url = 'https://5b0988e595225.cdn.sohucs.com/images/20200102/59a5cc9a208249c6b4a58a8287f50485.jpeg' img_data 阅读全文

posted @ 2024-02-23 18:01 会秃头的小白阅读(22) 评论(0) 推荐(0) 编辑

数据解析简介

摘要：数据解析分类： --正则 --bs4 --xpath 数据解析的原理： --解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 --1.进行指定标签的定位 --2.标签或者标签对应的属性中存储的数据值进行提取（解析）阅读全文

posted @ 2024-02-23 14:05 会秃头的小白阅读(1) 评论(0) 推荐(0) 编辑

摘要：import requests import json if __name__ == '__main__': #制定url url = 'https://movie.douban.com/j/chart/top_list' params = { 'type':'24', 'interval_id': 阅读全文

posted @ 2024-02-22 15:20 会秃头的小白阅读(87) 评论(0) 推荐(0) 编辑

破解百度翻译

摘要：--需求：破解百度翻译 --对应的请求是post请求（携带了参数） --响应数据是一组json数据代码 import requests import json if __name__ == '__main__': #制定url post_url = 'https://fanyi.baidu.co 阅读全文

posted @ 2024-02-22 14:57 会秃头的小白阅读(45) 评论(0) 推荐(0) 编辑

爬取搜狗指定词条对应的搜索结果页面（简易网页采集器）

摘要：#UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求载体的身份标识为某一款浏览器，说明是正常用户通过浏览器发起的正常的请求 # 如果检测到非浏览器发起的请求，则表示请求可能为不正常的请求（爬虫），那么有可能就会拒绝该请求 #UA：User-Agent：（请求身份载体的身份标识）阅读全文

posted @ 2024-02-22 14:17 会秃头的小白阅读(53) 评论(0) 推荐(0) 编辑

requests基础

摘要：笔记 requests模块 - urllib模块 - requests模块 request模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。作用：模拟浏览器发请求。如何使用：(requests模块的编码流程) - 指定url - 发起请求 - 获取响应数据 - 阅读全文

posted @ 2024-02-22 13:46 会秃头的小白阅读(5) 评论(0) 推荐(0) 编辑

爬虫简介

摘要：爬虫分类：通用爬虫：抓取系统重要组成部分，抓取的是一个整张页面的数据聚焦爬虫：是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫：检测网站中数据更新的情况，指挥抓取网站中最新更新出来的数据爬虫的矛与盾：反爬机制门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行阅读全文

posted @ 2024-02-22 13:16 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

7

摘要：今天学了会机器学习+深入学习做了spark的实验阅读全文

posted @ 2024-02-01 23:11 会秃头的小白阅读(2) 评论(0) 推荐(0) 编辑

3. 统计学生成绩

摘要：object test3 { case class student(id: String, gender: String, score: Map[String, Int]) //读取文件的方法： def inputStudentList(filename: String): List[student 阅读全文

posted @ 2024-02-01 21:11 会秃头的小白阅读(8) 评论(0) 推荐(0) 编辑

2. 模拟图形绘制

摘要：case class Point(var x:Double,var y:Double) extends Drawable{ def shift(deltaX:Double,deltaY:Double): Unit = { x+=deltaX; y+=deltaY } } trait Drawable 阅读全文

posted @ 2024-02-01 17:28 会秃头的小白阅读(16) 评论(0) 推荐(0) 编辑

1. 计算级数

摘要：import scala.io.StdIn.readLine object test1 { def main(args: Array[String]): Unit = { val q = readLine("请输入一个大于0的数：").toDouble val result = calculateS 阅读全文

posted @ 2024-02-01 16:28 会秃头的小白阅读(5) 评论(0) 推荐(0) 编辑

lin513

02 2024 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜