木木&侃侃 - 博客园

css用法（持续更新ing）

摘要： *:选择所有节点 #container:选取id为container的节点 .container:选取所有class包含container的节点 li a:选取li下的所有a节点 ul +p:选取ul后面的第一个p元素 div#container>ul:选取id为container的div的第一个u 阅读全文

posted @ 2017-07-09 15:12 木木&侃侃阅读(119) 评论(0) 推荐(0)

xpath用法（持续更新ing）

摘要： article:选取所有article元素的所有子节点 /article:选取根元素article article/a:选取所有属于article的子元素的a元素 //div:选取所有div元素 article //div:选取所有属于article元素的后代div元素，不管它出现在article元阅读全文

posted @ 2017-07-09 13:38 木木&侃侃阅读(150) 评论(0) 推荐(0)

scrapy shell 用法（慢慢更新...）

摘要： scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent，scrapy shell中可以直接添加头文件，第①种方法 scrapy shell -s USER_AGENT="Mozilla/5.0 (Window 阅读全文

posted @ 2017-06-29 23:29 木木&侃侃阅读(373) 评论(0) 推荐(1)

scrapy模拟知乎登录(无验证码机制)

摘要：恢复内容开始 spiders 文件夹下新建zhihu.py文件（从dos窗口中进入虚拟环境，再进入工程目录之后输入命令 scrapy genspider zhihu www.zhihu.com） #zhihu.py import scrapy import re import json from I 阅读全文

posted @ 2017-06-23 18:07 木木&侃侃阅读(379) 评论(0) 推荐(0)

request模拟知乎登录（无验证码机制）

摘要： import request try: import cookielib #python2版本 except: import http.cookiejar as cookielib #python3版本 import re session=request.session() session.cook 阅读全文

posted @ 2017-06-22 09:16 木木&侃侃阅读(709) 评论(0) 推荐(0)

css用法（持续更新ing）

xpath用法（持续更新ing）

scrapy shell 用法（慢慢更新...）

scrapy模拟知乎登录(无验证码机制)

request模拟知乎登录（无验证码机制）

导航

公告