Loading

上一页 1 ··· 4 5 6 7 8
摘要: 使用xpath 简介 常见语法 选取节点 谓语 通配符 选取多个路径 运算符 其他用法 使用contains选取包含属性 使用tostring()将对象转换为字符串 使用starts-with 使用not排除属性 选取倒数第二个标签 使用 normalize-space 选取某个节点的兄弟节点 根据 阅读全文
posted @ 2020-09-21 18:00 kingron 阅读(1052) 评论(0) 推荐(0) 编辑
摘要: 使用 pandas 处理数据时,遍历和并行处理是比较常见的操作了本文总结了几种不同样式的操作和并行处理方法。 1. 准备示例数据 import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(40, 100, ( 阅读全文
posted @ 2020-09-21 17:43 kingron 阅读(5474) 评论(0) 推荐(1) 编辑
摘要: 引言 数据采集工作中,难免会遇到增量采集。而在增量采集中,如何去重是一个大问题,因为实际的需要采集的数据也许并不多,但往往要在判断是否已经采集过这件事上花点时间。比如对于资讯采集,如果发布网站每天只更新几条或者根本就不更新,那么如何让采集程序每次只采集这更新的几条(或不采集)是一件很简单的事,数据库 阅读全文
posted @ 2020-09-20 21:43 kingron 阅读(1252) 评论(0) 推荐(2) 编辑
摘要: 关于 range 函数 Python内置的range函数可以接收三个参数: class range(stop): ... class range(start, stop[, step]): ... 标准库中解释为:range 构造器的参数必须为整数(可以是内置的 int 或任何实现了 __index 阅读全文
posted @ 2020-09-20 21:40 kingron 阅读(773) 评论(0) 推荐(0) 编辑
摘要: \xa0表示不间断空白符,爬虫中遇到它的概率不可谓不小,而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说,有以下几种方法可行: 使用re.sub 使用正则表达式可以轻松匹配所有空白字符,它对于Unicode字符也 阅读全文
posted @ 2020-09-20 21:20 kingron 阅读(525) 评论(0) 推荐(1) 编辑
摘要: 使用脚本 window.scrollBy(0, 1000),放入 while True 循环,示例代码: while True: js = 'window.scrollBy(0, 1000)' driver.execute_script(js) 阅读全文
posted @ 2020-09-20 21:19 kingron 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了。除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai)好(ji)者爱不释手的武器。但是其速度又往往令人感到美中不足,特别是在与 scrapy 集成使用时, 阅读全文
posted @ 2020-09-20 21:08 kingron 阅读(1052) 评论(0) 推荐(0) 编辑
上一页 1 ··· 4 5 6 7 8