spider - 随笔分类 - pi-pi-miao-miao

goquery常用语法

摘要：Find 查找获取当前匹配的每个元素的后代Eq 选择第几个Attr 获取对应的标签属性AttrOr 获取对应的标签属性。这个可以设置第二个参数。获取的默认值如果获取不到默认调用对应默认值Each 遍历每一个元素Text 获取当前对应的文本Html 获取当前对象的标签AddClass 添加 clas 阅读全文

posted @ 2018-07-09 15:55 pi-pi-miao-miao 阅读(2166) 评论(0) 推荐(0)

css选择器

摘要：*选择所有节点 #container 选择id为container的节点 .container 选取所有class包含container的节点 li a 选取所有li下的所有a即诶但那 ul+p 选择ul后面的第一个p元素 div#container >ul 选取id为container的div的第阅读全文

posted @ 2017-09-15 02:09 pi-pi-miao-miao 阅读(133) 评论(0) 推荐(0)

爬虫基础知识与简单爬虫实现

摘要：css规则：选择器，以及一条或者多条生命。 selector{declaration1;,,,;desclarationN} 每条声明是由一个属性和一个值组成 property:value 例子： h1{color:red;fontsize:14px} 元素选择器：直接选择文档元素 id选择器属性阅读全文

posted @ 2017-09-11 01:43 pi-pi-miao-miao 阅读(362) 评论(0) 推荐(0)

Xpath

摘要：一、xpath简介二、xpath节点关系三、xpath语法阅读全文

posted @ 2017-09-08 13:50 pi-pi-miao-miao 阅读(180) 评论(0) 推荐(0)

python补充知识点

摘要：1、在python2中用xrange，在python3中直接使用range就好了 2、常数 None在逻辑判断的时候指代False，其他方式不代表True或者False 3、 for循环只作用域容器 4、range函数，range只能遍历数字，如果遍历下标可以和len函数结合 5、python函阅读全文

posted @ 2017-09-07 20:55 pi-pi-miao-miao 阅读(173) 评论(0) 推荐(0)

四、简单小爬虫

摘要：结果： xml知识：http://www.runoob.com/python/python-xml.html 阅读全文

posted @ 2017-09-06 21:41 pi-pi-miao-miao 阅读(169) 评论(0) 推荐(0)

request模块一基础部分

摘要：一、HTTP请求通过requests发送网络请求，方法有get post put delete head options 二、传递URL参数如果为url字符串传递数据，手工构建url那么数据就会以键值对的方式存在URL中，字典中的None不会被添加到URL的查询字符串里面三、相应内容 1、自动阅读全文

posted @ 2017-09-06 19:50 pi-pi-miao-miao 阅读(145) 评论(0) 推荐(0)

三、爬虫算法策略、去重策略、编码问题

摘要：一、算法 1、网站的树结构基础点击下面具体基础 2、深度优先算法和实现二、url去重策略三、关于编码问题阅读全文

posted @ 2017-09-06 18:23 pi-pi-miao-miao 阅读(254) 评论(0) 推荐(0)

二、常用模块

摘要：一、xml模块 xml的格式如下，就是通过<>节点来区别数据结构的如： xml协议在各个语言里的都是支持的，在python中可以用以下模块操作xml： xml模块 1、首先导入xml模块 2、parse()解析 3、getroot()获取根对象 xml：方法如下：查看标签名，标签属性，标签中间阅读全文

posted @ 2017-09-06 14:31 pi-pi-miao-miao 阅读(150) 评论(0) 推荐(0)

第八篇、正则表达式 re模块

摘要：一、常用匹配模式小练习：匹配下面的出生日期 re.match和re.compile() 阅读全文

posted @ 2017-09-04 21:18 pi-pi-miao-miao 阅读(199) 评论(0) 推荐(0)

pyrene

我的微信：pi-pi-miao 我的github: https://github.com/pi-pi-miao

随笔分类 - spider

公告