08 2019 档案
摘要:建仓库 我们可以对已存在目录进行初始化,对仓库内容进行管理第一步是创建一个空仓库,这是后续操作的前提 进入git仓库 Git 仓库基础操作 Git 的四个区域 Workspace:工作区()就是创建的git仓库(git_test目录) Index / Stage / Cached:暂存区(它像一个结
阅读全文
摘要:一般配置用户层面配置 Git 的配置从上到下分三层 system/global/local,使用三个不同参数进行设置,每个层次的配置存储在不同的位置, 1)./etc/gitconfig 文件:包含了适用于系统所有用户和所有库的值。如果你传递参数选项’--system’ 给 git config,它
阅读全文
摘要:Git 安装 Centos 下安装 Git,默认在 CentOS 下,我们可以通过 yum 的方式来安装 Git 使用 yum 安装的 Git 的版本是 1.8,版本较低,我们还可以通过源码编译的方式来安装Git 的最新版本。首先需要安装依赖的库: 下载最新的源码包 源码包下载地址https://m
阅读全文
摘要:Git 简介 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库的方式
阅读全文
摘要:版本控制系统介绍 Git简介 Git centos 安装 Git 的配置 Git初始化仓库 git 命令 git status add rm commit mv git 命令 git diff 查看 Git 区域文件的具体改动 git 命令 查看历史提交 git log git 仓库 回退功能 gi
阅读全文
摘要:版本控制系统 什么是版本控制 版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。 版本控制的目的 实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和
阅读全文
摘要:基于requests模块发起ajax的post请求 需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定某个城市地点的餐厅数据 点击肯德基餐厅查询页面 输入北京点击查询是一个提交form表单,异步ajax的post请求,使用抓包工具抓取请求 基
阅读全文
摘要:基于requests模块发起ajax的get请求 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面
阅读全文
摘要:需求:爬取搜狗首页的页面数据 requests模块如何处理携带参数的get请求,返回携带参数的请求 需求:指定一个词条,获取搜狗搜索结果所对应的页面数据 之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码 发起带参数的get请求 params可以是传字典或
阅读全文
摘要:urllib模块发起的POST请求 案例:爬取百度翻译的翻译结果 1.通过浏览器捉包工具,找到POST请求的url 针对ajax页面请求的所对应url获取,需要用到浏览器的捉包工具。查看百度翻译针对某个字条发送ajax请求,所对应的url 点击clear按钮可以把抓包工具,所抓到请求清空 然后填上翻
阅读全文
摘要:requests模块(response常用属性) 基于requests模块的get请求 基于requests模块发起ajax的get请求 基于requests模块发起ajax的post请求
阅读全文
摘要:response常用属性
阅读全文
摘要:方法: 使用urlencode函数 urllib.request.urlopen() 开发者工具浏览器按F12或者右键按检查 ,有个抓包工具network,刷新页面,可以看到网页资源,可以看到请求头信息,UA 在抓包工具点击任意请求,可以看到所有请求信息,向应信息, 主要用到headers,resp
阅读全文
摘要:案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦’的页面数据) 编码错误 【注意】上述代码中url存在非ascii编码的数据,则该url无效。如果对其发起请求,则会报如下错误: url的特性:url不可以存在非ASCII编码字符数据,url必须为ASCII编码的数据值。所以我们
阅读全文
摘要:python 爬虫 urllib模块介绍 python 爬虫 urllib模块 url编码处理 python 爬虫 urllib模块 反爬虫机制UA python 爬虫 urllib模块 发起post请求
阅读全文
摘要:一.urllib库 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 使用流程: 指定url 针对指
阅读全文
摘要:爬虫 介绍 python 爬虫 urllib模块 python 爬虫 requests模块
阅读全文
摘要:网络爬虫的介绍 网络爬虫的介绍 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。这个过程也是爬取数据过程 哪些语言可以实现爬虫 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多
阅读全文
摘要:/etc/sysctl.conf 用于控制内核相关的配置参数,而且它的内容全部是对应于 /proc/sys/ 这个目录的子目录及文件 net.ipv4.tcp_sack = 1#关闭tcp_sack#启用有选择的应答(Selective Acknowledgment),#这可以通过有选择地应答乱序接
阅读全文
摘要:非阻塞IO(non-blocking IO) Linux下,可以通过设置socket使其变为non-blocking。当对一个non-blocking socket执行读操作时,流程是这个样子: 从图中可以看出,当用户进程发出read操作时,如果kernel中的数据还没有准备好,那么它并不会bloc
阅读全文
摘要:多路复用IO(IO multiplexing) 这种IO方式为事件驱动IO(event driven IO)。 我们都知道,select/epoll的好处就在于单个进程process就可以同时处理多个网络连接的IO。它的基本原理就是select/epoll这个function会不断的轮询所负责的所有
阅读全文
摘要:异步IO(Asynchronous I/O) Linux下的asynchronous IO其实用得不多,从内核2.6版本才开始引入。先看一下它的流程: 用户进程发起read操作之后,立刻就可以开始去做其它的事。而另一方面,从kernel的角度,当它受到一个asynchronous read之后,首先
阅读全文