随笔分类 - 爬虫
摘要:这玩意一般般、OCR可以试试EasyOcr、飞桨OCR、 ```Python """ Tesseract 就是谷歌开源的一个OCR光学文字识别引擎 默认已经有训练好的库了,但它还可以加载别人训练好的库。 使用: 1、根据平台安装引擎 这里有一个【曼海姆大学图书馆】的封装版本 https://gith
阅读全文
摘要:```Python import os import random import re import sys import time import urllib.parse import requests from lxml import etree from lxml.etree import _
阅读全文
摘要:```Python import json import os import requests from lxml import etree from lxml.etree import _Element class DoubanMovieSpider(object): def __init__(s
阅读全文
摘要:又是xpath.... 10年前学java就学过了...哈哈哈 要就看w3cschool的教程就行了, **函数部分会用得到:** [https://www.w3school.com.cn/xpath/xpath_functions.asp](https://www.w3school.com.cn/
阅读全文
摘要:出现这个问题是因为你系统上在使用代理,然后你的代理又是规则匹配的。 [https://stackoverflow.com/questions/36906985/switch-off-proxy-in-requests-library](https://stackoverflow.com/questi
阅读全文