摘要: 代码是在吴恩达深度学习作业的基础上完成的。 问题1:下载的 yolo.h5 无法使用 开始想原来下载的不行我就换个地方下载呗,就绕到 git lfs 去了,然后发现这个条路好像不大行得通... 最后参考 yolo.h5文件问题的解决 - 吴恩达深度学习:目标检测之YOLO算法 把问题解决了。 问题2 阅读全文
posted @ 2022-11-01 00:15 Sly_Yang 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 目的:建立自己的代理池。可以添加新的代理网站爬虫,可以测试代理对某一网址的适用性,可以提供获取代理的 API。 整个流程:爬取代理 > 将代理存入数据库并设置分数 > 从数据库取出代理并检测 > 根据响应结果对代理分数进行处理 > 从 API 取出高分代理 > 用高分代理爬取目标网站 分析: 1、爬 阅读全文
posted @ 2019-05-27 21:13 Sly_Yang 阅读(1336) 评论(2) 推荐(0) 编辑
摘要: 目的:按给定关键词爬取京东商品信息,并保存至mongodb。 字段:title、url、store、store_url、item_id、price、comments_count、comments 工具:requests、lxml、pymongo、concurrent 分析: 1. https://s 阅读全文
posted @ 2019-05-25 12:21 Sly_Yang 阅读(5002) 评论(0) 推荐(0) 编辑
摘要: 目的: 爬取抖音小视频 工具: mitmproxy、Appium 思路: 1. 通过 mitmproxy 截取请求, 找出 response 为 video 的请求. 2. 通过 mitmdump 对接 python 对上述请求进行处理. 3. 配合 Appium 实现自动抓取视频. 方法: 1. 阅读全文
posted @ 2019-05-20 20:53 Sly_Yang 阅读(2546) 评论(1) 推荐(2) 编辑
摘要: 一、CrawlSpider 根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性. 除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了. 阅读全文
posted @ 2019-05-18 19:14 Sly_Yang 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 起因: 因为个人原因, 这些天了解了一下Python处理PDF的方法. 首先是PDF转txt, 这个方法比较多, 这里就不再赘述, 主要聊一下PDF中的图片获取. 这里用我自己的例子, 不过具体情况还得具体分析. 工具: pdfminer, pillow, fitz, re 思路: 1. 使用pdf 阅读全文
posted @ 2019-05-16 21:09 Sly_Yang 阅读(4533) 评论(2) 推荐(1) 编辑
摘要: 偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标: https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字符, 且网页源码中该类数字均被 .&# 阅读全文
posted @ 2019-05-14 23:37 Sly_Yang 阅读(474) 评论(0) 推荐(1) 编辑