Sly_Yang

2022年11月1日

摘要：代码是在吴恩达深度学习作业的基础上完成的。问题1：下载的 yolo.h5 无法使用开始想原来下载的不行我就换个地方下载呗，就绕到 git lfs 去了，然后发现这个条路好像不大行得通... 最后参考 yolo.h5文件问题的解决 - 吴恩达深度学习：目标检测之YOLO算法把问题解决了。问题2 阅读全文

posted @ 2022-11-01 00:15 Sly_Yang 阅读(61) 评论(0) 推荐(0) 编辑

2019年5月27日

Python爬虫-代理池-爬取代理入库并测试代理可用性

摘要：目的：建立自己的代理池。可以添加新的代理网站爬虫，可以测试代理对某一网址的适用性，可以提供获取代理的 API。整个流程：爬取代理 > 将代理存入数据库并设置分数 > 从数据库取出代理并检测 > 根据响应结果对代理分数进行处理 > 从 API 取出高分代理 > 用高分代理爬取目标网站分析： 1、爬阅读全文

posted @ 2019-05-27 21:13 Sly_Yang 阅读(1336) 评论(2) 推荐(0) 编辑

2019年5月25日

Python爬虫-按给定关键词-爬取京东商品信息

摘要：目的：按给定关键词爬取京东商品信息，并保存至mongodb。字段：title、url、store、store_url、item_id、price、comments_count、comments 工具：requests、lxml、pymongo、concurrent 分析： 1. https://s 阅读全文

posted @ 2019-05-25 12:21 Sly_Yang 阅读(5002) 评论(0) 推荐(0) 编辑

2019年5月20日

Python爬虫-抖音小视频-mitmproxy与Appium

摘要：目的: 爬取抖音小视频工具: mitmproxy、Appium 思路: 1. 通过 mitmproxy 截取请求, 找出 response 为 video 的请求. 2. 通过 mitmdump 对接 python 对上述请求进行处理. 3. 配合 Appium 实现自动抓取视频. 方法: 1. 阅读全文

posted @ 2019-05-20 20:53 Sly_Yang 阅读(2546) 评论(1) 推荐(2) 编辑

2019年5月18日

Python爬虫-Scrapy-CrawlSpider与ItemLoader

摘要：一、CrawlSpider 根据官方文档可以了解到, 虽然对于特定的网页来说不一定是最好的选择, 但是 CrwalSpider 是爬取规整的网页时最常用的 spider, 而且有很好的可塑性. 除了继承自 Spider 的属性, 它还拓展了一些其他的属性. 对我来说, 最常用的就是 rules 了. 阅读全文

posted @ 2019-05-18 19:14 Sly_Yang 阅读(499) 评论(0) 推荐(0) 编辑

2019年5月16日

Python处理PDF-通过关键词定位-截取PDF中的图表

摘要：起因: 因为个人原因, 这些天了解了一下Python处理PDF的方法. 首先是PDF转txt, 这个方法比较多, 这里就不再赘述, 主要聊一下PDF中的图片获取. 这里用我自己的例子, 不过具体情况还得具体分析. 工具: pdfminer, pillow, fitz, re 思路: 1. 使用pdf 阅读全文

posted @ 2019-05-16 21:09 Sly_Yang 阅读(4533) 评论(2) 推荐(1) 编辑

2019年5月14日

Python爬虫-字体反爬-猫眼国内票房榜

摘要：偶然间知道到了字体反爬这个东西, 所以决定了解一下. 目标: https://maoyan.com/board/1 问题: 类似下图中的票房数字无法获取, 直接复制粘贴的话会显示 □ 等无法识别的字符, 且网页源码中该类数字均被 .&# 阅读全文

posted @ 2019-05-14 23:37 Sly_Yang 阅读(474) 评论(0) 推荐(1) 编辑

公告