摘要: 单线程爬虫 在执行爬取任务时,程序一次只处理一个任务。这意味着在一个时刻,它只能向一个服务器发送请求,并等待该请求的响应。完成这个请求后,它才会发送下一个请求。单线程爬虫的结构简单,易于理解和实现,但效率较低,特别是在网络延迟较大或需要处理大量数据时。 爬虫多为IO密集型程序,而IO处理速度并不是很 阅读全文
posted @ 2024-10-14 23:49 松鼠q 阅读(0) 评论(0) 推荐(0) 编辑
摘要: 目标:提取热映电影的名称和评分 首先获取响应内容 from fake_useragent import UserAgent import requests # url地址 url = 'https://www.maoyan.com/films?showType=1' # 设置请求头 headers 阅读全文
posted @ 2024-10-09 15:59 松鼠q 阅读(3) 评论(0) 推荐(0) 编辑
摘要: jsonpath对于json相当于xpath对于xml,jsonpath提供多种语言实现版本包括python,javascript,php和java等,jsonpath是第三方库,需要安装,cmd中输入pip install jsonpath 安装后输入pip show jsonpath可查看详细信 阅读全文
posted @ 2024-10-04 17:49 松鼠q 阅读(8) 评论(0) 推荐(0) 编辑
摘要: JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人阅读和编写,同时也易于机器解析和生成。它基于JavaScript的一个子集,但JSON是独立于语言的,很多编程语言都支持JSON格式的数据的生成和解析。 JSON的特点包括: 文本格式: JSON是纯文 阅读全文
posted @ 2024-10-03 15:47 松鼠q 阅读(3) 评论(0) 推荐(0) 编辑
摘要: re提取纵横中文网推荐榜前3页小说标题: 观察到纵横中文网推荐榜的数据需要从动态网页获取。(动态网页中发起的请求通过JavaScript进行的网络请求(通常使用Fetch API或XMLHttpRequest即XHR)会出现在浏览器开发者工具的网络面板中,并且可以通过Fetch/XHR筛选器查看这些 阅读全文
posted @ 2024-10-03 10:03 松鼠q 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 直接在谷歌应用商店下载插件需要科.学.上网。如果不想科.学.上网可以在第三方网站下载插件,例如谷歌浏览器插件网:https://www.chajian5.com/。 在搜索框中输入xpath,点击搜索,跳转页面后选择xpath插件(以xpath helper为例) 选择xpath helper,点击 阅读全文
posted @ 2024-09-30 20:36 松鼠q 阅读(6) 评论(0) 推荐(0) 编辑
摘要: xpath是一种用于在xml文档中选择节点的语言,也可以用于在html文档中选择元素路径。虽然xpath最初是为了xml设计的,但它同样适用于html。 节点的关系: 父 子 同胞 先辈 后代 常用路径表达式 表达式 描述 nodename 选取此节点的所有子节点 / 从根节点选取 // 从匹配选择 阅读全文
posted @ 2024-09-29 22:03 松鼠q 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1. 目标url:http://www.people.com.cn/ 2. 查找标题信息所在标签:标题的文本信息在<a>标签中,且<a>标签有target属性,属性值为"_blank"。<a>标签有父辈标签<div>和<h3>。 当需要根据元素的层级关系、属性组合等复杂条件定位时;文档层次分明时CS 阅读全文
posted @ 2024-09-28 19:40 松鼠q 阅读(3) 评论(0) 推荐(0) 编辑
摘要: from bs4 import BeautifulSoup html = ''' <html> <head> <title>Page Title</title> </head> <body> <div class="info" float="left">welcome</div> <div clas 阅读全文
posted @ 2024-09-28 13:49 松鼠q 阅读(2) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup4(简称bs4)和正则表达式都能处理文本,筛选数据,但它们各有优势和适用场景。在网络爬虫项目中,通常会结合两个工具适用,例如用bs4解析网页结构,然后使用正则表达式提取特定的文本内容。 bs4是用于解析html和xml文档的第3方库,它本身并不直接解析文档,而是依赖于其它解 阅读全文
posted @ 2024-09-26 19:02 松鼠q 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 首先确认要爬取的信息所在网页是静态还是动态,打开浏览器开发者工具抓包,下拉页面更新体育新闻的摘要(summary),同时查看网络面板,筛选fetch/xhr发起的请求的响应,随着下拉动作,能发现对https://matchweb.sports.qq.com/feeds/list的请求的增加。爬取的目 阅读全文
posted @ 2024-09-26 13:11 松鼠q 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式? 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。换句话说,正则表达式是一种用来描述字符串模式的工具。它使用一些特殊的符号和规则来匹配、查找或替换字符串中的特定部 阅读全文
posted @ 2024-09-25 16:47 松鼠q 阅读(4) 评论(0) 推荐(0) 编辑
摘要: requests设置超时时间 可以通过timeout属性设置超时时间,一旦超过这个时间还没有获得响应内容,就会提示错误。爬取大量数据时,可以分离出响应时间过长的url,后续再处理。 import requests from fake_useragent import UserAgent # 请求地址 阅读全文
posted @ 2024-09-23 16:43 松鼠q 阅读(7) 评论(0) 推荐(0) 编辑
摘要: RTF: 角色+任务+格式 标题:高效远程工作的五大技巧与工具推荐 引言:随着数字化转型的加速,远程工作已成为常态。掌握有效的远程工作技巧,不仅能提升工作效率,还能保持工作与生活的平衡。 内容:高效远程工作需做到:1.明确目标与计划;2.保持沟通畅通,使用Slack、Zoom等工具;3.时间管理,利 阅读全文
posted @ 2024-09-22 10:30 松鼠q 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 什么是多模态? 多模态(Multimodal)这个概念通常用于描述能够处理和整合不同类型信息的系统或方法。在不同的领域,多模态可以有不同的含义,但核心思想是融合多种感知模式或数据形式来增强理解和交互。 在计算机科学和人工智能领域,多模态通常涉及以下几种类型的信息: 视觉:包括图像、视频等视觉信息。 阅读全文
posted @ 2024-09-22 09:49 松鼠q 阅读(23) 评论(0) 推荐(0) 编辑
摘要: 不同的prompt提示词会导致不同的生成内容,同样的目的,设置不同提示词,最终的结果可能有很大偏差。 问题: 什么是prompt多模态能力? 我是一个刚开始学习提示工程的小白,你需要为我讲解什么是prompt的多模态能力,讲解的语言要通俗易懂。 回答: https://www.cnblogs.com 阅读全文
posted @ 2024-09-22 09:45 松鼠q 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 使用urllib伪装User-Agent:https://www.cnblogs.com/qyly/p/18410791,https://www.cnblogs.com/qyly/p/18415401 使用urllib伪装IP地址:https://www.cnblogs.com/qyly/p/184 阅读全文
posted @ 2024-09-22 09:01 松鼠q 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 大语言模型(Large Language Models,简称LLM)是指通过深度学习技术训练出的、具有大量参数的语言处理模型。这些模型通常使用大量的文本数据进行训练,以学习语言的模式和结构,从而能够理解和生成自然语言。 大语言模型的特点包括: 参数众多:大语言模型通常拥有数十亿甚至数千亿个参数,这些 阅读全文
posted @ 2024-09-21 21:46 松鼠q 阅读(21) 评论(0) 推荐(0) 编辑
摘要: prompt是一种在人工智能领域中用于指导模型生成特定输出的输入文本或指令。以下是对它的详细介绍: 基本概念:prompt是指向AI模型提供输入以引导其生成特定输出的文本或指令。它的目的是引导模型产生所需的回应,以便更好地控制生成的输出[1]。 历史起源:prompt这个词源自拉丁语“promptu 阅读全文
posted @ 2024-09-21 21:05 松鼠q 阅读(17) 评论(0) 推荐(0) 编辑
摘要: Prompt Engineering,即提示工程,是自然语言处理(NLP)领域中的一个重要概念,它指的是通过设计精心构造的提示(prompt)或输入,来引导大型语言模型生成特定类型的输出。这个技术背后的原理是利用模型对输入的敏感性,通过提供特定格式或内容的提示,引导模型生成符合预期的输出。 一、定义 阅读全文
posted @ 2024-09-21 20:56 松鼠q 阅读(15) 评论(0) 推荐(0) 编辑
摘要: 什么是prompt提示词? 叮!快来看看我和文心一言的奇妙对话~什么是提示工程(prompt engineering)?点击链接https://www.cnblogs.com/qyly/p/18424494-- 文心一言,既能写文案、读文档,又能绘画聊天、写诗做表,你的全能伙伴!一句话概括:Prom 阅读全文
posted @ 2024-09-21 20:43 松鼠q 阅读(8) 评论(0) 推荐(0) 编辑
摘要: requests库是python的第三方模块,是一个简单易用的HTTP库,它允许发送HTTP/1.1请求,无需手工添加查询字符串或编码。需要在cmd里使用pip install requests或在anaconda prompt中使用conda install requests命令安装。 可以在官网 阅读全文
posted @ 2024-09-21 19:02 松鼠q 阅读(8) 评论(0) 推荐(0) 编辑
摘要: chatgpt提示词网站: https://www.aishort.top/ https://www.explainthis.io/zh-hans/chatgpt AI + x | Datawhale学习指南: https://datawhaler.feishu.cn/wiki/X9AVwtmvyi 阅读全文
posted @ 2024-09-21 16:02 松鼠q 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 下载安装 八爪鱼采集器官网:https://www.bazhuayu.com/,点击立即下载或网页右上角的免费下载,后续也可以在官网查找教程帮助。下载后运行安装程序,只需要设置好安装位置,八爪鱼的下载安装非常简便。 简单数据采集 智能识别采集,在首页搜索框搜索要爬取的网页内容,八爪鱼采集器会自动识别 阅读全文
posted @ 2024-09-19 11:31 松鼠q 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 请求异常通常可分为: 网络异常 服务器异常 资源异常 ...... urllib.error python的urllib标准库的error子模块包含了URLError、HTTPError、ContentTooShortError3类,分别处理当URL无法打开时抛出的异常、当HTTP请求失败时抛出的异 阅读全文
posted @ 2024-09-18 23:11 松鼠q 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 接着爬取上次提过的网站。当前页面需要登录才能获取信息,编写爬虫自动登录,自定义opener对象添加可以保存cookie的HTTPCookieHandler处理器来发送请求,将cookie保存成cookie.txt文件,再读取cookie并向服务器发送请求获取目标网页信息。目标url为http://w 阅读全文
posted @ 2024-09-18 22:53 松鼠q 阅读(2) 评论(0) 推荐(0) 编辑
摘要: cookie是一种由网站创建并存储在用户计算机上的小型文本文件。访问该网站时由浏览器返回给服务器。cookie主要作用是帮助网站记住用户信息,包括但不限于: 会话管理,网站使用cookie识别用户的会话,以便用户在浏览网站时不需要重复登录。 个性化体验,通过存储用户的偏好设置,网站可以在用户下次访问 阅读全文
posted @ 2024-09-17 16:18 松鼠q 阅读(5) 评论(0) 推荐(0) 编辑
摘要: urllib.request.urlopen()源代码——urlopen()在干什么 返回opener.open(url, data, timeout)方法的结果 _opener = None # _opener被赋值为None def urlopen(url, data=None, timeout 阅读全文
posted @ 2024-09-16 15:57 松鼠q 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 部分网站做了反爬虫机制,不允许程序访问网站的数据,而使用同一个useragent(用户代理)短时间爬取大量数据也可能被网站反爬虫程序识别。为了更好地模拟浏览器地工作,可以使用第三方库fake-useragent生成假的useragent字符串伪装浏览器,从而绕过一些网站的反爬虫措施。 首先在命令行中 阅读全文
posted @ 2024-09-15 17:01 松鼠q 阅读(18) 评论(0) 推荐(0) 编辑
摘要: HTTP&HTTPS HTTPS为安全超文本传输协议,是HTTP的安全版本,它在HTTP和TCP/IP之间增加了一个SSL/TSL层(安全套接层/传输层协议),用于加密HTTP的通信内容。 SSL证书 一种数字证书,用于在SSL/TLS协议中验证服务器的身份,并启用加密通信。是HTTPS通信中身份验 阅读全文
posted @ 2024-09-15 16:08 松鼠q 阅读(23) 评论(0) 推荐(0) 编辑
摘要: AJAX AJAX(异步JavaScript和XML)是一种无需重新加载整个页面的情况下,与服务器交换数据,将增量信息局部更新在用户界面上的技术。AJAX具有异步性,AJAX请求不会阻塞用户界面,用户可以在请求处理的同时继续与页面交互,具有更强的交互性。AJAX能使网页从浏览器请求少量信息而不是整个 阅读全文
posted @ 2024-09-15 11:22 松鼠q 阅读(10) 评论(0) 推荐(0) 编辑
摘要: GET请求是HTTP协议中的一种基本方法,当需要在GET请求中传递中文参数时需要额外对中文进行编码(英文不需要),因为url中只能包含ascii字符。 可以使用urllib.parser.urlencode()或urllib.parse.quote()方法对中文转码。 详细查官方文档: https: 阅读全文
posted @ 2024-09-12 22:45 松鼠q 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 一些服务器只允许普通浏览器的请求而不允许来自脚本的请求,可以使用urllib.request.Request对象封装请求头的信息(请求头需要以字典的形式封装),伪装成普通浏览器发送请求。 urllib.request.Request(url, data=None, headers={}, origi 阅读全文
posted @ 2024-09-12 18:23 松鼠q 阅读(12) 评论(0) 推荐(0) 编辑