摘要: re模块 re引擎由c编写 .元字符 一个.代表匹配一个任意字符(除了\n),下面代码表示2个字符在中间 ['lxxl'] ^元字符 字符开头为标准,只匹配开头,如代码,当str开头为l满足^的条件,然后继续匹配其他条件 ['lgdl'] 贪婪匹配:有多少匹配多少 $元字符 $匹配文本结束 \ 元字 阅读全文
posted @ 2019-08-23 21:07 zx125 阅读(241) 评论(1) 推荐(0) 编辑
摘要: 目标爬取社会信用码 http://125.35.6.84:81/xk/ 1.首先界面是一个简单的分页查询 2.刷新一下,发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现,是根据之前的ID查询的 7.开始work,首先爬取前面数据的ID, 阅读全文
posted @ 2019-08-23 12:10 zx125 阅读(829) 评论(2) 推荐(1) 编辑
摘要: import requests import json if __name__ == '__main__': 记录总数 raw_count=0 查询页数 page=1 存储数据 data=[] 判断有无数据条件 size=10 python中没有null,防止转dict异常 global null 阅读全文
posted @ 2019-08-21 17:04 zx125 阅读(173) 评论(0) 推荐(0) 编辑
摘要: 百度翻译 爬虫 爬取思路 1.首先打开百度翻译,输入dog查看运行过程 2.打开抓包,发现有三个sub的post请求,确定为ajax,最后一个post请求携带完整参数dog 3.然后查看返回数据为json串 阅读全文
posted @ 2019-08-20 19:23 zx125 阅读(432) 评论(0) 推荐(1) 编辑
摘要: 网页采集器 UA伪装 UA伪装 请求载体身份标识的伪装: User Agent: 请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User Agent为浏览器的身份标识,如果使用爬虫程序发起的请求,则该请求的载体为爬虫程序,则该请求的User Agent为爬虫程序的身份标识。服务 阅读全文
posted @ 2019-08-20 17:24 zx125 阅读(708) 评论(0) 推荐(0) 编辑
摘要: python模块2 相关概念 模块名是标识符(需要按照标识符的写法编写) Pyc文件 在使用模块的项目中会生成一个 文件,里面存放着编译过的(模块的)字节码缓存文件(因为模块一般很少有改动,这样可以优化) 关于模块的import路径 默认是以文件最顶上的文件作为root,但是也可以自己添加下层的根目 阅读全文
posted @ 2019-08-17 16:31 zx125 阅读(194) 评论(0) 推荐(1) 编辑
摘要: ``` import os count=[0,0] paths=[] file_count=[0] def sum_code(path): if os.path.isfile(path): one_file(path) else: paths=os.walk(path) for i in paths: for j in i[2]: path=i[0]+"\\"+j one_file(path) d 阅读全文
posted @ 2019-08-16 13:29 zx125 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 模块概念 模块的四种形式 1.自定义模块 自己写的.py文件,里面编写了一堆函数 2.第三方模块 已被编译为共享库或者DLL的c或c++的扩展 3.内置模块 使用c编写并链接到python解释器的内置模块 4.包 把一系列模块组织到一起的文件夹(每一个包目录下面都会有一个 的文件,这个文件是必须存在 阅读全文
posted @ 2019-08-15 21:39 zx125 阅读(175) 评论(0) 推荐(0) 编辑
摘要: go入门 go go是强类型,编译型的语言 go开发环境 | 环境变量 | 说明 | | : : | : | | GOROOT | 指定go的SDK安装目录 | | Path | 添加SDK的/bin目录 | | GOPATH | 工作目录,将来我们的go项目的工作路径,不然不能执行 | GOPAT 阅读全文
posted @ 2019-08-15 14:39 zx125 阅读(141) 评论(0) 推荐(0) 编辑
摘要: Python内存 None 和小整数池相似,python解释器启动就初始化好的 小整数池 当python解释器启动,就会在内存初始化一块保存 5到256的区域 而且这部分不会被垃圾回收,直到python解释器关闭 交互式里面运行: True False 垃圾回收 以引用计数为主,标记 清除和分代回收 阅读全文
posted @ 2019-08-14 16:57 zx125 阅读(161) 评论(1) 推荐(1) 编辑