2019年5月2日

使用memory_profiler异常

摘要: 在使用memory_profiler模块0.55.0版本执行命令诊断程序内存用量时,遇到下面错误: 根据提示我找到memory_profiler模块,查看源码line1128附近,原来在line1127出了问题: 因为我用的是国产windows系统,默认字符编码是gbk,若无指定打开文件时也会用gb 阅读全文

posted @ 2019-05-02 16:14 Tarantino 阅读(504) 评论(0) 推荐(0) 编辑

安装python性能检测工具line_profiler

摘要: line_profiler是一款监测python的CPU密集型性能问题的强大工具,可以对函数进行逐行分析,在linux上安装时一切正常,然而今天在win10 64位系统安装失败了 pip3 install line_profiler 报错: 提示我需要安装 Microsoft Visual C++ 阅读全文

posted @ 2019-05-02 12:42 Tarantino 阅读(4003) 评论(0) 推荐(0) 编辑

2019年4月26日

python脚本处理下载的b站学习视频

摘要: 作为常年在b站学习的我,一直以来看到有兴趣的视频,从来都是点赞收藏下载三连,但是苦于我那小钢炮iphone se屏幕大小有限,看起视频实在费劲,决定一定要找个下载电脑上下载b站视频的方法,以前用过硕鼠,可惜速度不行,批量解析也会出些问题,就没用了,后来也用过一些其他小工具,效果都不咋样,今天真是发现 阅读全文

posted @ 2019-04-26 22:51 Tarantino 阅读(1671) 评论(0) 推荐(0) 编辑

2019年4月22日

scrapy meta信息丢失

摘要: 在做58同城爬二手房时,由于房产详情页内对价格进行了转码处理,所以只能从获取详情页url时同时获取该url对应房产的价格,并通过meta传递给下回调函数 现在问题是,在回调函数中找不到原函数meta信息: 我第一猜想是由于请求经过各种retry重试,和rediret到jump_url、firewal 阅读全文

posted @ 2019-04-22 14:59 Tarantino 阅读(524) 评论(0) 推荐(0) 编辑

2019年4月19日

针对特定网站scrapy爬虫的性能优化

摘要: 在使用scrapy爬虫做性能优化时,一定要根据不同网站的特点来进行优化,不要使用一种固定的模式去爬取一个网站,这个是真理,以下是对58同城的爬取优化策略: 一、先来分析一下影响scrapy性能的settings设置(部分常用设置):1,DOWNLOAD_TIMEOUT,下载超时,默认180S,若超时 阅读全文

posted @ 2019-04-19 18:20 Tarantino 阅读(2307) 评论(0) 推荐(1) 编辑

2019年4月17日

scrapy爬取58同城二手房问题与对策

摘要: 测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有效ip不够多,因此从xxx网站批量获取了800多个免费https代理,然后开线程池测试访问58同城网 阅读全文

posted @ 2019-04-17 19:29 Tarantino 阅读(1605) 评论(0) 推荐(0) 编辑

2019年4月10日

安装CentOS7.4全记录

摘要: 大学用了四年的笔记本快用废了,闲来想着用来装个centos,当个服务器也行,于是装上了CentOS6.9系统,由于最小化安装,而且在安装时没有安装wpa_supplicant包,笔记本本身网卡接口又坏了,结果就不能正常联网了,所以一直没用,后来摸索挂载U盘安装wpa_supplicant终于成功,安 阅读全文

posted @ 2019-04-10 16:24 Tarantino 阅读(8045) 评论(0) 推荐(1) 编辑

2019年3月26日

非常棒的进度条

摘要: 在ftp项目编写上传下载文件时候会用到进度条功能,以便客户机直观的获取文件传输状态信息。python已经由第三方tqdm库供我们调用了,但是这么一个简单的功能调用一个200多k的第三方模块让我觉得相当浪费,不如自己写一个吧! 需求: require1>>>文件传输中,每当文件大小状态获得更新时,我需 阅读全文

posted @ 2019-03-26 14:24 Tarantino 阅读(168) 评论(0) 推荐(0) 编辑

2019年1月4日

python中的字典

摘要: 在python中,字典是可变数据类型。 可以通过下面案例证明: 可见,字典增加一对键值,内存地址没有发生变化,说明字典是可变数据类型。 字典常用操作如下: 1.增删改查:>>> dic = {'name': 'chenjun'}#增加键值 2.设置字典默认值 3.dict.fromkeys() 个人 阅读全文

posted @ 2019-01-04 14:25 Tarantino 阅读(168) 评论(0) 推荐(0) 编辑

python中的列表

摘要: 在python中,列表是可变数据类型 以下面案例作为说明: 可见对列表取值做了修改之后,列表的内存地址并没发生改变,说明列表是可变数据类型。 列表有许多操作,下面通过案例一一介绍: 1.列表支持索引: 2.列表的增删改查 3.统计元素出现次数: 4.顺序排序和逆序排序 5.列表的复制 要想实现列表复 阅读全文

posted @ 2019-01-04 13:51 Tarantino 阅读(183) 评论(0) 推荐(0) 编辑

导航