摘要: 环境:Windows 10一、Git基本命令git init 初始化git仓库git add 将工作目录下的文件添加到暂存区git commit 将缓存区内容添加到仓库中。git config 配置相关信息git log 查看提交历史git ... 阅读全文
posted @ 2019-02-07 22:51 onefine 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 在Python2.x中访问MySQL数据库可以使用第三方库MySQL-Python(即MySQLdb),但是MySQLdb不支持Python3.x。在Python3.x中,可以使用另一个第三方库MySQLclient作为替代,它是基于MySQL-Python... 阅读全文
posted @ 2019-02-06 12:21 onefine 阅读(715) 评论(0) 推荐(0) 编辑
摘要: 当启动Django自带的服务器时,报错2059:...MySQLdb._exceptions.OperationalError: (2059, )...查看了一下mysql版本:mysql> select version();+-----------+| v... 阅读全文
posted @ 2019-02-06 10:54 onefine 阅读(1116) 评论(0) 推荐(0) 编辑
摘要: CSS选择器CSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语法。CSS选择器的语法比XPath简单一点,但功能不如XPath强大。实际上,当我们调用Selector的CSS方式时,在其内部会使用Python库cssselect将CSS选... 阅读全文
posted @ 2019-02-02 00:58 onefine 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 1、XPath是什么?XPath即XML路径语言(XML Path Language),它是一种用来确定xml文档中某部分位置的语言。XPath本身遵循w3c标准。xml文档(html属于xml)是由一系列结点构成的树。例如从网络上爬取的一段html代码: ... 阅读全文
posted @ 2019-02-02 00:55 onefine 阅读(4834) 评论(0) 推荐(0) 编辑
摘要: 环境:Python3.x + Scrapy升级pip(可忽略):C:\Users\xxx>python -m pip install --upgrade pip # 升级pipCollecting pip Using cached https://fil... 阅读全文
posted @ 2019-01-30 09:52 onefine 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 爬虫去重策略:将访问过的url保存到数据库中。最简单的方式。即使数据库有缓存,但每次都从数据库中查询url,效率低下。将访问过的url保存到set中,只需要o(1)的代价就可以查询url占用内存过高对小型爬虫,假设存储100000000条url数据,每条数据... 阅读全文
posted @ 2019-01-29 22:44 onefine 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 二叉树深度优先(DFS)和广度优先(BFS)深度优先遍历:对每一个可能的分支路径深入到不能再深入为止,而且每个结点只能访问一次。二叉树的深度优先遍历的非递归的通用做法是采用栈,要特别注意的是,二叉树的深度优先遍历比较特殊,可以细分为先序遍历、中序遍历、后序遍... 阅读全文
posted @ 2019-01-29 22:40 onefine 阅读(962) 评论(0) 推荐(0) 编辑
摘要: 字符串编码1、编码历史计算机只能处理数字0和1,文本转换为数字才能处理。计算机中8个位(bit)作为一个字节(byte),所以一个字节能表示最大的十进制数字就是255。计算机是美国人发明的,一个字节就可以表示所有字符了,所以ASCII(一个字节)编码就成为美... 阅读全文
posted @ 2019-01-29 22:18 onefine 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 正则表达式的基本概念 正则表达式为高级的文本模式匹配、抽取或文本形式的搜索和替换功能提供了基础。 简单地说,正则表达式(Regular Expression,简称为 regex)是一些由字符和特殊符号组成的字符串,它们描述了模式的重复或者表述多个字符,于... 阅读全文
posted @ 2019-01-29 20:27 onefine 阅读(564) 评论(0) 推荐(0) 编辑