04 2021 档案

摘要:OutLine 下午发现服务器资源吃紧,ps看了下,发现自己 selenium + FireFox 爬虫任务有N多进程; 处理 这些进程一直积累,没有销毁,导致资源大量占用; 代码里也确保FireFox最终会 driver.close(),退出浏览器; 后来对比了下 driver.close() 和 阅读全文 »
posted @ 2021-04-26 13:52 ZhuGaochao 阅读(295) 评论(0) 推荐(0) 编辑
摘要:OutLine 一般写好一个 scrapy 项目,启动方式大多会在命令行里执行: scrapy crawl “spider-name” (后面有参数就跟参数) 但这么启动不方便去断点调试,不便于快速定位问题、解决问题。 So 记录下自己在pycharm中断点调试的过程。(下文中图片可能看不清,点击即 阅读全文 »
posted @ 2021-04-25 18:37 ZhuGaochao 阅读(1383) 评论(0) 推荐(0) 编辑
摘要:需求 把指定列的数据根据指定字符进行拆分,并保留拆分后所需的列; 原始数据: 需要将这列数据根据 ‘.’ 进行拆分,并保留 .DCE 前面的部分; 解决 借助于 pandas.DataFrame.field.str.split() df['ts_code'].str.split('.', expan 阅读全文 »
posted @ 2021-04-15 11:07 ZhuGaochao 阅读(3824) 评论(0) 推荐(0) 编辑
摘要:需求 将两列string类型的数据拼接为新的一列; 原始数据如下: 解决 借助于 pandas.DataFrame.field.str.cat() df['deliveryPrice'].str.cat(df['deliveryMonth']).str.upper() 阅读全文 »
posted @ 2021-04-15 10:15 ZhuGaochao 阅读(1195) 评论(0) 推荐(0) 编辑
摘要:需求 剔除指定列中包含 “小计”信息的行。 解决 借助 pandas.DataFrame.filed.str.contains() Step1:取出包含 “小计” 信息的行; 这样,剩下的数据就都是不包含 “小计” 的数据了; df[df['deliveryPrice'].str.contains( 阅读全文 »
posted @ 2021-04-15 09:56 ZhuGaochao 阅读(2524) 评论(0) 推荐(0) 编辑
摘要:Outline 在把scrapy任务部署到scrapyd服务上时,遇到问题一直不成功: 报错如下: (Deploy failed (500):,部署失败) scrapyd-deploy muji_data_python_spider -p muji_data_python_spider Packin 阅读全文 »
posted @ 2021-04-02 10:33 ZhuGaochao 阅读(1018) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示