Loading

上一页 1 ··· 4 5 6 7 8 9 10 11 下一页
摘要: 参考资料: "知乎 很多网站源码都是分为 GBK 和 UTF 8 版,为什么要同时开发两种?" 八位的字节一共可以组合出256(2的8次方)种不同的状态 ANSI :一个字符对应一个字节,其中从0开始的32种字节状态被称为“控制码”,之后一直到127号字节状态用来表示所有的空格、标点符号、数字和大小 阅读全文
posted @ 2019-06-03 20:36 云野Winfield 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 在这篇文章中,我们使用Scrapy中的下载中间件来实现标题里的三个功能 参考: "Scrapy文档 downloader middleware" 注意所有的下载中间件都需要在settings.py中启用: 默认的启动优先级见: "downloader middlewares base" 随机UA " 阅读全文
posted @ 2019-06-03 09:30 云野Winfield 阅读(906) 评论(0) 推荐(0) 编辑
摘要: Item "Item文档" 创建item 在items.py中创建item,示例如下: item的api与python中的字典类似,Field就像字典中预定义好的key 更多item的用法请查阅文档 Pipline "Pipline文档" 创建Pipline 第一步:在piplines.py中编写p 阅读全文
posted @ 2019-05-31 16:18 云野Winfield 阅读(478) 评论(0) 推荐(0) 编辑
摘要: 参考资料: " 反爬终极方案总结—字体反爬 知乎 " " python解析字体反爬 CSDN博客 " 常见的字体反爬就是用css自定义字体来替换网页中的关键数据,使爬虫无法正常解析。这里以58同城为例: 既然是字体替换,那么前端就一定要加载相关的字体文件。因此,在网页中的head标签下,我们可以找到 阅读全文
posted @ 2019-05-31 09:38 云野Winfield 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 本文参考: " 调用jupyter notebook文件内的函数一种简单方法 " 首先,创建一个python文件,例如Ipynb_importer.py,代码如下: 接下来,在我们的jupyter notebook文件里调用Ipynb_importer.py,然后就可以像调用普通python文件一样 阅读全文
posted @ 2019-05-23 14:35 云野Winfield 阅读(1120) 评论(0) 推荐(0) 编辑
摘要: 本文参考: " 程序员的好日子什么时候才到头? 程序人生" 程序员群体壮大的原因是 IT相关的业务需求在不断地革新和扩大 :科学计算(卡带程序) 小型机(CS程序) 互联网(Web程序) 移动互联 大数据/AI 回顾这段历史,还有一个很值得玩味的地方:市场一直对程序员的需求强劲,可靠的供给却严重不足 阅读全文
posted @ 2019-05-15 19:59 云野Winfield 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 1 环境依赖 Redis / aiohttp / requests / redis py / Flask 2 模块架构 2.1 存储模块 负责代理池的存储 要求数据去重 要求动态实时地处理每个代理 因此我们采用Redis的Sorted Set作为存储框架 2.2 获取模块 代理池系统的入口 负责捕获 阅读全文
posted @ 2019-05-07 21:01 云野Winfield 阅读(281) 评论(0) 推荐(0) 编辑
摘要: Splash→Scrapy: 首先,lua脚本中要返回Cookies: 然后,在spider中调用 即可得到返回的Cookies Scrapy→Splash 把Cookies作为参数传递到SplashRequest()中: 传入数据的参数类型与 "scrapy.Request" 中的cookies相 阅读全文
posted @ 2019-05-03 15:38 云野Winfield 阅读(1252) 评论(0) 推荐(0) 编辑
摘要: 1. 安装Splash: 1. 安装docker 2. docker拉取Splash镜像: 3. 启动Splash: 2. 安装并配置scrapy splash:https://github.com/scrapy plugins/scrapy splash 在settings.py中增加: 3. S 阅读全文
posted @ 2019-05-01 21:58 云野Winfield 阅读(678) 评论(0) 推荐(0) 编辑
摘要: ``` import pymongo client = pymongo.MongoClient(host='localhost',port=27017) db = client.test collection = db.books import selenium from selenium import webdriver import time options = webdriver.Fire... 阅读全文
posted @ 2019-04-28 16:16 云野Winfield 阅读(116) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8 9 10 11 下一页