随笔档案「2021年4月」 - ZhuGaochao

selenium + FireFox出现未销毁进程积累

摘要：OutLine 下午发现服务器资源吃紧，ps看了下，发现自己 selenium + FireFox 爬虫任务有N多进程；处理这些进程一直积累，没有销毁，导致资源大量占用；代码里也确保FireFox最终会 driver.close()，退出浏览器；后来对比了下 driver.close() 和阅读全文

posted @ 2021-04-26 13:52 ZhuGaochao 阅读(339) 评论(0) 推荐(0)

Pycharm中断点调试（debug）scrapy

摘要：OutLine 一般写好一个 scrapy 项目，启动方式大多会在命令行里执行： scrapy crawl “spider-name” （后面有参数就跟参数）但这么启动不方便去断点调试，不便于快速定位问题、解决问题。 So 记录下自己在pycharm中断点调试的过程。（下文中图片可能看不清，点击即阅读全文

posted @ 2021-04-25 18:37 ZhuGaochao 阅读(1661) 评论(0) 推荐(0)

pandas 按某列中的指定字符拆分某列 pandas.DataFrame.field.str.split()

摘要：需求把指定列的数据根据指定字符进行拆分，并保留拆分后所需的列；原始数据：需要将这列数据根据 ‘.’ 进行拆分，并保留 .DCE 前面的部分；解决借助于 pandas.DataFrame.field.str.split() df['ts_code'].str.split('.', expan 阅读全文

posted @ 2021-04-15 11:07 ZhuGaochao 阅读(3956) 评论(0) 推荐(0)

pandas 拼接两列string类型数据为新的一列 df.str.cat()

摘要：需求将两列string类型的数据拼接为新的一列；原始数据如下：解决借助于 pandas.DataFrame.field.str.cat() df['deliveryPrice'].str.cat(df['deliveryMonth']).str.upper() 阅读全文

posted @ 2021-04-15 10:15 ZhuGaochao 阅读(1208) 评论(0) 推荐(0)

pandas 筛选出某列中包含指定信息的行 pandas contains()

摘要：需求剔除指定列中包含 “小计”信息的行。解决借助 pandas.DataFrame.filed.str.contains() Step1：取出包含 “小计” 信息的行；这样，剩下的数据就都是不包含 “小计” 的数据了； df[df['deliveryPrice'].str.contains( 阅读全文

posted @ 2021-04-15 09:56 ZhuGaochao 阅读(2615) 评论(0) 推荐(0)

scrapyd-deploy 把scrapy项目打包上传部署到scrapyd服务端报错 Deploy failed (500)

摘要：Outline 在把scrapy任务部署到scrapyd服务上时，遇到问题一直不成功：报错如下：（Deploy failed (500):，部署失败） scrapyd-deploy muji_data_python_spider -p muji_data_python_spider Packin 阅读全文

posted @ 2021-04-02 10:33 ZhuGaochao 阅读(1058) 评论(0) 推荐(0)

TreeSir

Where You From & Where You Go.

04 2021 档案

公告