摘要: 常用正则表达式的方法: re.compile(编译) pattern.match(从头找一个) pattern.search(找一个) pattern.findall(找所有) pattern.sub(替换) In [5]: re.findall('.','\n') Out[5]: [] In [6]: re.findall('.','\n',re... 阅读全文
posted @ 2018-12-14 22:44 wsg-python 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL JSON(JavaScript Object Notation) 是一种轻量级的数据交换格 阅读全文
posted @ 2018-12-13 20:04 wsg-python 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 寻找登录的post地址 在form表单中寻找action对应的url地址 post的数据是input标签中name的值作为键,真正的用户名密码作为值的字典,post的url地址就是action对应的url地址 抓包,寻找登录的url地址 勾选perserve log按钮,防止页面跳转找不到url 寻 阅读全文
posted @ 2018-12-13 12:02 wsg-python 阅读(845) 评论(0) 推荐(0) 编辑
摘要: requests 的底层实现其实就是 urllib json在线解析工具 Linux alias命令用于设置指令的别名。 home目录中~/.bashrc 这个文件主要保存个人的一些个性化设置,如命令别名、路径等。 注意:1,写绝对路径 2,有空格 改好后使用source ~/.bashrc 使用文 阅读全文
posted @ 2018-12-07 16:59 wsg-python 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 爬虫的分类:聚焦爬虫和通类爬虫- 微指数-新浪 robots.txt Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 爬虫的概念 爬虫是模拟浏览器发送请求,获取响应 爬虫是模拟浏览器发送请求,获取响应 爬虫的流程 url >发送请求,获取响应 >提取数据 阅读全文
posted @ 2018-12-07 16:13 wsg-python 阅读(189) 评论(0) 推荐(0) 编辑
摘要: bytes 1、bytes对象只负责以二进制字节序列的形式记录所需记录的对象,至于该对象到底表示什么(比如到底是什么字符)则由相应的编码格式解码所决定 2、bytes是Python 3中特有的,Python 2 里不区分bytes和str。 3、python3中: str 使用encode方法转化为 阅读全文
posted @ 2018-12-07 14:22 wsg-python 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 1、手动建立: 第一步 建立虚拟环境 Windows cmd: pip install virtualenv 创建虚拟环境目录 env 激活虚拟环境 C:\Python27\Scripts\env\Scripts>activate.bat Linux: 启动虚拟环境: source env/bin/ 阅读全文
posted @ 2018-12-05 23:03 wsg-python 阅读(4202) 评论(0) 推荐(0) 编辑
摘要: 使用的是win7系统,gitbook新版本不支持html跳转功能,所以要降版本至2.6.7 解决办法如下: 第一步: 生成时指定gitbook的版本, 本地没有会先下载 gitbook build --gitbook=2.6.7 可能会报错,如下操作: 列出本地所有的gitbook版本 gitboo 阅读全文
posted @ 2018-10-31 11:49 wsg-python 阅读(2651) 评论(0) 推荐(0) 编辑
摘要: 每天更新.... python基础 python字符编码 python基础数据类型 python列表、元组 python字典 python字符编码unicode,utf-8,ascii python深浅拷贝 python文件读取 python--初识函数 python函数本质与闭包 python-装 阅读全文
posted @ 2018-01-07 21:00 wsg-python 阅读(270) 评论(0) 推荐(0) 编辑