摘要:
本博客仅作为笔记,不做教学,教程可以看大佬这的flask教程。 环境 虚拟环境 创建虚拟环境 Windows $ python -m venv env Linux 或 macOS $ python3 -m venv env 激活虚拟环境 Windows $ env\Scripts\activate 阅读全文
摘要:
一次跟着网站学习的时候,跟着提交本地仓库到GitHub,出现了如下错误。 看了不少博客、文章,但一直没有找到个解决方法,最后好不容易才弄好了,于是写在这里,如果有大佬用上了的话,那可就太好了。 好了,不扯淡了,我解决问题用了三步。 在git bash中输入$ git pull origin mast 阅读全文
摘要:
# 提前声明 本博客只是将自己学到的知识做总结而已,细节学习请来[这里](https://developer.mozilla.org/zh-CN/docs/Learn/HTML/Introduction_to_HTML/HTML_text_fundamentals "这里"),大佬的教学很详细很棒。 阅读全文
摘要:
[toc] # 元素大全 ``` :定义HTML文档的根元素。 :包含关于文档的元数据,如标题、样式表和脚本等。 :定义文档的标题,通常出现在浏览器的标签栏中。 :定义文档的主体,包含所有可见内容。 - :定义标题,从大到小六级标题。 :定义段落。 :定义链接,可以链接到其他页面或同一页面内的锚点。 阅读全文
摘要:
基于session和cookies 代码 import requests from urllib.parse import urljoin # 定义基础 URL 和登录、首页 URL BASE_URL = 'https://login2.scrape.center/' LOGIN_URL = url 阅读全文
摘要:
aiohttp库使用流程 导入 aiohttp 库,并创建一个信号量,用于限制并发数量。 定义索引页面和详情页面的URL,以及每页的大小和总页数。 创建一个异步函数 scrape_api,用于爬取指定URL的数据。 创建一个异步函数 scrape_index,用于爬取指定页码的索引数据。 使用 as 阅读全文
摘要:
大概流程 在网页找目标Ajax 破解Ajax规律 定义Ajax的URL,爬取Ajax的数据 其实跟普通爬虫差别不大,只不过爬的对象从看到的网页变成了Ajax链接而已。 只要找到Ajax链接,就可以很轻易的爬取下来了。 全部代码 import requests import logging loggi 阅读全文
摘要:
大数据平台环境搭建(10 分) Docker基本操作 Hadoop 完全分布式安装配置 Spark安装配置 Flink安装配置 Hive 安装配置 Kafka 安装配置 Flume 安装配置 ClickHouse 安 装 配 置 HBase 安装配置 总结 基于Docker 环境,进行大数据相关平台 阅读全文
摘要:
启用 Middleware 图中内容原本是注释的,去掉注释即可 'middlewares.'后面接的是middle类的名字,是可以改的。 改成如图的形式就算启用指定名称的 middleware 了。 函数详解 这两个函数不用动,保持默认就好 def from_crawler(cls, crawler 阅读全文
摘要:
定义一个 item 参数要设置为 file_urls 和 files 调用时 files 可以不写,有默认值 class PipelineFilepipelines(scrapy.Item): file_urls = scrapy.Field() files = scrapy.Field() 启用默 阅读全文