摘要:
MongoDB安装与快速入门 一、MongoDB 概述 MongoDB 是一个面向文档的数据库系统,使用 BSON(Binary JSON)格式存储数据,提供了高性能、高可用性和易扩展性。它专为 Web 应用和大数据场景设计,通过简单的数据模型、强大的查询功能和灵活的扩展性,成为现代应用开发的热门选 阅读全文
摘要:
数据来源:tushare 署名:406940 tushare是一个股票行情数据接口,通过它能获取到大量的股票数据,数据一多,必然影响爬取速度,本章我要展示的是在同步、asyncio和线程池三种情况下去爬tushare六支差不多一年的历史分笔数据 同步 同步是在一个多线程下执行,程序按照代码执行顺序一 阅读全文
摘要:
背景 咱们做爬虫的或多或少都会遇到附件下载,一般情况站点提供的附件链接会直接声明文件的类型,但是有些提供的只是一个api,然后触发下载时再返回附件文本,这个时候我们是没法直接知道文件类型的,而我们使用requests下载并存储附件时是必须要定义好它的文件类型的,那有什么解决方案呢? 解决方案 mim 阅读全文
摘要:
常见问题与解决方案 信任证书后移动到/system/etc/security/cacerts下出现证书莫名其妙被删除 我在使用MT管理器移动文件也会出现这种情况,重启手机也没用,最后使用magisk + Move Certificates 插件,下载Move Certificates插件,然后将证书 阅读全文
摘要:
之前都是使用jadx直接打开的apk文件,要添加dex文件时突然添加失败并报错 也就是会校验dex的checksum,直接关闭会导致dex文件反编译失败。 解决方案:查日志后得到关闭校验即可 操作方式如下: 阅读全文
摘要:
布隆过滤器原理及应用 定义 布隆过滤器(Bloom Filter) 是一种空间效率极高的概率型数据结构,用于测试一个元素是否在一个集合中。它的优点是空间效率和查询时间都远超过一般的算法,缺点是有一定的误识别率和删除困难。 原理 布隆过滤器使用位数组(bit array)和一系列的哈希函数。当你向布隆 阅读全文
摘要:
python爬虫工程师面经 前言面经总结发展相关问题爬虫基础相关问题工作经验相关问题 总结 前言 过年期间,经过自我慎重的考虑后,终于决定在2月份向公司提出了辞职,说实话很慌,也做好了长时间找不到工作的准备,只是继续呆在公司对自我发展毫无意义,找了差不多一个月,面试了六家公司,最后确定了一份工作,在 阅读全文
摘要:
权限问题 参考链接: Appium连接手机时报权限错误 requires:android.permission.WRITE_SECURE_SETTINGS 我所遇到的问题: Encountered internal error running command: Error executing adb 阅读全文
摘要:
lxml+xpath基本指令和提取方法详解 一、XPath简介 XPath,全称为XML Path Language,是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML,还常用于处理HTML文档。 二、基本指令和提取方法 选择节点 使 阅读全文
摘要:
常用采集策略与应用场景 导语 网络采集一般有三大指标:完整度,准确度,新鲜度,从零抓取时大家比较关注完整度,也就是数据量,而当完整度达到一定量时,就要产生质变才能给数据带来升华,这时大家就比较关注准确度和新鲜度。要更好的完成这三大指标,需要根据业务场景选择对应的采集策略,一个好的采集策略能够提高采集 阅读全文