摘要:
参考链接:python并行任务技巧 python多线程到底有没有用 我的笔记本是四核 因为多进程没用过,所以我自己写了个小例子,体现出在CPU密集型操作中多进程的优势 运行多进程,注释掉19行代码 运行多线程,注释掉18行代码 运行结果 1.多线程 CPU最高37% 2.多进程 CPU最高100% 阅读全文
摘要:
参考:https://www.jianshu.com/p/5f693b4c9468 一开始想激活12.1.8,但是激活按钮一直点不了,换了个12.0激活成功 阅读全文
摘要:
效果图 发布问答页面需要登录才能访问,没有登录会跳转到登录页面 模板继承,正则验证,数据库迁移,md5加密 mysql 5.7 登录页面 登录后的发布问答页面,右上角会显示用户名和注销 项目代码:码云 阅读全文
摘要:
cmd运行 一般都是disk 1,不过最好先list查一下 右击桌面上的计算机图标,选择管理,进入磁盘管理,能看到u盘分区是未分配的(黑色),右击,新建分区,一直下一步就OK了。 阅读全文
摘要:
错误代码 参考:https://blog.csdn.net/qq_27468251/article/details/81359701 改为 阅读全文
摘要:
https://blog.csdn.net/abundantstudy/article/details/61195351 阅读全文
摘要:
原来的注释是红色的,看着跟报错似的.. 还有flask中html文件的注释,我修改了Django的注释颜色,flask也就改了 也可以直接点击下面的代码,哪里难看点哪里 阅读全文
摘要:
将一个环境中安装的所有的包在另一个环境中安装 1.生成文件列表 2.将该文件放入到新环境中,安装 阅读全文
摘要:
超级鹰打码平台 稍稍改写了一下他的demo,用的话直接调用get_code()函数就可以了 新用户还给1000题分测试用,用户名密码填写自己的,验证码类型查看 阅读全文
摘要:
框架写起来代码是真的简洁多了,还有就是在requests爬取房多多的时候,无法爬取所有地区,而这个就不受影响 代码请查看码云 运行结果: 阅读全文
摘要:
本来想正面刚一下这个验证码的,但是一直post不上去,只好设置随机延迟,防止反爬 fangdd.py get_pinyin.py save_to_mongo.py 因为设置了延迟,再加上数据量比较大,所以爬取时间有点长,我打完了一把王者荣耀,c开头的还没爬完,此时数据库中已经有22000条信息了 运 阅读全文
摘要:
总体来说代码还不是太完美 实现了js渲染网页的解析的一种思路 主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 运行结果 数据库 阅读全文
摘要:
卸载 安装 使用: 1.启动服务(我看好多教程都是sudo service mysql start,但是我这不好使) 2.登录(我走的流程)(这里在登陆的时候发现不输入密码无法登陆,但是安装过程中也没有输入密码这一步,查找资料后发现需要自己查看用户名密码,登陆进去以后在修改root密码) 2.1.查 阅读全文
摘要:
登录人人网为例 1.想要发送post请求,那么使用'scrapy.FormRequest'方法,可以方便的指定表单数据 2.如果想在爬虫一开始的时候就发送post请求,那么应该重写'start_requests'方法,在这个方法中发送post请求 spider.py 返回结果 dapeng.html 阅读全文
摘要:
照着敲了一遍,,, 需要使用"LinkExtrator"和"Rule",这两个东西决定爬虫的走向。 1.allow设置规则的方法:要能够限制在我们想要的url上,不要跟其他的url产生相同的正则表达式即可 2.什么情况下使用follow:如果要爬取页面的时候,需要将满足当前条件的url再进行跟进,那 阅读全文
摘要:
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串, 阅读全文
摘要:
#settings.py文件设置 #如果网站中没有robots文件,就不会抓取任何数据 ROBOTSTXT_OBEY = False #设置请求头 DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) 阅读全文