随笔分类 - Crewler
爬虫
摘要:Scrapy Install command: lib: 解析库 SSL协议库 异步Web框架 main: 框架 Use command: 创建项目 编辑项目后, 启动爬虫脚本 结构分析: 在scrapy框架中. 执行新项目指令之后.例如: 会生成如下目录 生成了一个项目名的根目录 一级目录下: 用
阅读全文
摘要:爬虫 字符串 字符串分两类: 1. bytes (二进制形式) 2. str (unicode形式) 字符集: 字符集是多个字符的集合 ASCII字符集 GB2312字符集 GB18030 Unicode字符集 字符集包含了所有需要表示字符. ASCII是最早使用最多的字符集, 编码用1个字节表示.
阅读全文
摘要:爬取思想流程 最近两天写爬虫比较多, 总结一下书写爬虫的思路步骤. 获取url. 浏览器打开. 如果无法直接打开, 则判断哪里有验证,根据平台修改User Agent等请求头. 信息页面路径上是否有所验证. 登录验证, IP验证. 有则一一解决. 登录验证 登录验证主要分两种: 图片验证: 抓下图片
阅读全文
摘要:英语单词词义搜索小工具: 有5个功能: 1.Definition(单词定义-英英释义) 2.WordFamily(形近词) 3.Synonym(同义词) 4.Antonym(反义词) 5.ContextualSentence(例句) 将所需要查询的单词分行填写在'Word.txt'文件中后. 运行该
阅读全文
摘要:# coding=utf-8 import gevent from gevent import monkey # monkey.patch_all() gevent.monkey.patch_all(thread=False, socket=False, select=False) # 协程geve
阅读全文