随笔分类 - Crawler

解析库之xpath，beautifulsoup，pyquery

摘要：xpath 一、常用xpath表达式属性定位： #找到class属性值为song的div标签 //div[@class="song"] 层级&索引定位： #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a //div[@class="tang"]/ul/l 阅读全文

posted @ 2019-03-25 00:05 silencio。编辑

请求库之urllib，requests及工具selenium

摘要：urllib模块 urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。一、使用流程：指定url 基于url 阅读全文

posted @ 2019-03-25 00:03 silencio。编辑

爬虫基本原理

摘要：爬虫基本原理一、爬虫是什么互联网:是由网络设备（网线，路由器，交换机，防火墙等等）和一台台计算机连接而成，像一张网一样。互联网的核心价值:在于数据的共享/传递：数据是存放于一台台计算机上的，而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递，否则你只能拿U盘去别人的计算机上拷贝阅读全文

posted @ 2019-03-24 18:49 silencio。编辑

公告

昵称： silencio。
园龄： 8年7个月
粉丝： 54
关注： 13

+加关注

2025年3月

日

一

二

三

四

五

六

silencio

逝者如斯夫,不舍昼夜

随笔分类 - Crawler

公告

随笔分类