随笔分类 -  爬虫

摘要:这玩意一般般、OCR可以试试EasyOcr、飞桨OCR、 ```Python """ Tesseract 就是谷歌开源的一个OCR光学文字识别引擎 默认已经有训练好的库了,但它还可以加载别人训练好的库。 使用: 1、根据平台安装引擎 这里有一个【曼海姆大学图书馆】的封装版本 https://gith 阅读全文
posted @ 2023-07-17 11:27 蕝戀 阅读(31) 评论(0) 推荐(0) 编辑
摘要:```Python import os import random import re import sys import time import urllib.parse import requests from lxml import etree from lxml.etree import _ 阅读全文
posted @ 2023-07-17 11:11 蕝戀 阅读(12) 评论(0) 推荐(0) 编辑
摘要:```Python import json import os import requests from lxml import etree from lxml.etree import _Element class DoubanMovieSpider(object): def __init__(s 阅读全文
posted @ 2023-07-17 11:10 蕝戀 阅读(13) 评论(0) 推荐(0) 编辑
摘要:又是xpath.... 10年前学java就学过了...哈哈哈 要就看w3cschool的教程就行了, **函数部分会用得到:** [https://www.w3school.com.cn/xpath/xpath_functions.asp](https://www.w3school.com.cn/ 阅读全文
posted @ 2023-07-17 11:07 蕝戀 阅读(9) 评论(0) 推荐(0) 编辑
摘要:出现这个问题是因为你系统上在使用代理,然后你的代理又是规则匹配的。 [https://stackoverflow.com/questions/36906985/switch-off-proxy-in-requests-library](https://stackoverflow.com/questi 阅读全文
posted @ 2023-07-17 11:00 蕝戀 阅读(740) 评论(0) 推荐(0) 编辑