摘要: 1.什么是爬虫? 请求网站并提取数据的自动化程序 请求:客户端向服务端发送请求获得网页资源,是一段html代码,包含html标签和一段信息。 提取:提取出想要的信息,然后将结构化的数据存储到文本 自动化:写完程序一直运行着,代替客户端向服务端发送请求,可以大量的获得数据 爬虫四部 1.发起请求:通过 阅读全文
posted @ 2018-07-21 19:10 Roc_Atlantis 阅读(179) 评论(0) 推荐(0) 编辑
摘要: 1.安装好前期必备的库 - requests 向网页发出请求 解释器自带的urllib 和re selenium 用于向有js渲染的网页发起请求 from selenium import webdriver driver = webdriver.Chrome() # 生成一个driver对象,并打开 阅读全文
posted @ 2018-07-21 15:13 Roc_Atlantis 阅读(163) 评论(0) 推荐(0) 编辑