Python Spider - 随笔分类 - ThankCAT

Python selenium

摘要：selenium Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera，Edge等。这个工具的阅读全文

posted @ 2023-02-19 22:29 ThankCAT 阅读(116) 评论(0) 推荐(1)

Python 爬虫方法总结

摘要：实现爬虫的套路准备URL 准备start_url url地址规律不明显，总数不确定通过代码提取下一页的url 通过xpath提取寻找url地址，部分参数在当前的响应中（比如当前页码数和总页码数在当前的响应中）准备url_list 页码总数明确的时候 url地址规律明显发送请求，获取响应添阅读全文

posted @ 2023-02-16 22:12 ThankCAT 阅读(74) 评论(0) 推荐(0)

Python xpath语法与 lxml 模块

摘要：XPath 语法 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 XML 实例文档我们将在下面的例子中使用这个 XML 文档。 <?xml version="1.0" encoding="ISO-8859-1"? 阅读全文

posted @ 2023-02-15 16:55 ThankCAT 阅读(119) 评论(0) 推荐(0)

Python正则表达式

摘要：使用正则表达式正则表达式相关知识在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要，正则表达式就是用于描述这些规则的工具，换句话说正则表达式是一种工具，它定义了字符串的匹配模式（如何检查一个字符串是否有跟某种模式匹配的部分或者从一个字符串中将与模式匹配的部分提取出来或者替阅读全文

posted @ 2023-02-14 23:06 ThankCAT 阅读(576) 评论(1) 推荐(0)

Python_json类方法

摘要：Python_json类方法 import requests import json headers = { "User-Agent": "Mozilla/5.0 (Linux Android 6.0Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, l 阅读全文

posted @ 2023-02-13 21:03 ThankCAT 阅读(40) 评论(0) 推荐(0)

Python request

摘要：request requests¶ get请求¶ In [ ]: import requests response=requests.get('http://www.baidu.com')#get请求 In [ ]: response.status_code #响应状态码 In [ ]: respo 阅读全文

posted @ 2023-02-12 21:54 ThankCAT 阅读(78) 评论(0) 推荐(0)

python实现百度贴吧页面爬取

摘要：import requests class TiebaSpider: """百度贴吧爬虫类""" def __init__(self, tieba_name) -> None: self.tieba_name = tieba_name self.url_temp = "https://tieba.b 阅读全文

posted @ 2023-02-09 22:00 ThankCAT 阅读(137) 评论(0) 推荐(0)

Loading

Thank CAT

随笔分类 - Python Spider

公告