JJJhr - 博客园

2024年7月5日

摘要： Scrapy 是一个强大的 Python 网络爬虫框架，专门设计用于快速开发和管理网络爬虫程序。它提供了一套完整的工具集，使得爬取网站数据变得高效、灵活和可扩展。以下是 Scrapy 的基础介绍和使用方法： Scrapy 的基础概念项目（Project）： Scrapy 爬虫程序的基本工作单位，包阅读全文

posted @ 2024-07-05 01:04 JJJhr 阅读(9) 评论(0) 推荐(0) 编辑

MongoDB数据库

摘要： MongoDB 的介绍 MongoDB 是一个开源的非关系型数据库系统，采用 C++ 编写，旨在处理大量数据存储和高吞吐量的应用程序。MongoDB 使用 JSON 风格的文档存储数据，具有高度的灵活性和性能。主要特点：非关系型数据库：不采用传统的关系型数据库表格模型，而是使用文档存储模型。高阅读全文

posted @ 2024-07-05 00:57 JJJhr 阅读(57) 评论(0) 推荐(0) 编辑

反爬与反反爬

摘要：反爬原因反爬（Anti-Scraping）机制是网站为防止自动化程序（爬虫）过度抓取或恶意访问而采取的保护措施。反爬的主要原因包括：保护网站资源：大量的自动化访问会消耗服务器资源，影响正常用户的访问体验。保护数据隐私：一些网站的数据具有商业价值，网站希望保护这些数据不被自动化程序大量获取。防阅读全文

posted @ 2024-07-05 00:45 JJJhr 阅读(261) 评论(0) 推荐(0) 编辑

selenium操作

摘要： selenium介绍开发使用有头浏览器，部署使用无界面浏览器 selenium工作原理利用浏览器原生的API，封装成一套更加面向对象的Selenium WebDriver API，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏，窗口大小，启动，关闭，安装插件，配置证书之类的） seleni 阅读全文

posted @ 2024-07-05 00:09 JJJhr 阅读(24) 评论(0) 推荐(0) 编辑

2024年6月27日

同花顺数据爬取

摘要：请求获取数据 import requests url = 'https://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/2/ajax/1/' headers = { 'User-Agent':'Mozilla/5.0 阅读全文

posted @ 2024-06-27 00:43 JJJhr 阅读(329) 评论(0) 推荐(0) 编辑

2024年6月25日

大众点评商家爬取

摘要：对显示搜索结果的网址发送请求 import requests url = 'https://www.dianping.com/search/keyword/150/0_%E6%84%8F%E9%9D%A2' headers = { 'Cookie':'baiduappugc_ab=ugcdetail 阅读全文

posted @ 2024-06-25 02:22 JJJhr 阅读(74) 评论(0) 推荐(0) 编辑

2024年6月21日

网易云音乐榜单爬取

摘要：打开网易云音乐，进入飙升榜进入到开发者工具页面，搜索列表页歌曲名称，查看请求地址模拟浏览器发出请求，查看响应内容 import requests url = 'https://music.163.com/discover/toplist?id=19723756' headers = { 'Use 阅读全文

posted @ 2024-06-21 18:45 JJJhr 阅读(128) 评论(0) 推荐(0) 编辑

2024年6月20日

验证码识别

摘要： import ddddocr ocr = ddddocr.DdddOcr() with open('img/验证码3.png', 'rb') as f: img_bytes = f.read() result = ocr.classification(img_bytes) print(result) 阅读全文

posted @ 2024-06-20 01:32 JJJhr 阅读(5) 评论(0) 推荐(0) 编辑

VIP视频解析

摘要：效果图新建窗口 import tkinter as tk# 创建一个窗口 root = tk.Tk() # 设置窗口大小 root.geometry('700x250+200+200') # 设置标题 root.title('在线观看电影软件') # 让窗口持续展现 root.mainloop() 阅读全文

posted @ 2024-06-20 00:38 JJJhr 阅读(79) 评论(0) 推荐(0) 编辑

2024年6月19日

网易云简单案例

摘要： import requests # 1.获取单张图片 # 找到目标url url = 'https://p1.music.126.net/MSAC3foF-V7L_wXo8GWNag==/109951169698511206.jpg?imageView&quality=89' # 构造请求头字典 h 阅读全文

posted @ 2024-06-19 16:14 JJJhr 阅读(14) 评论(0) 推荐(0) 编辑

JJJhr'blog

公告