摘要: 爬取的数据,需要保存,可以存储在文件中或者数据库中。 存储在文件中,包括txt、csv、json; 存储在数据库中,包括MySQL关系数据库和MongoDB数据库。 python 字典操作参考: http://jianwl.com/2017/08/22/%E9%AB%98%E6%95%88%E5%A 阅读全文
posted @ 2018-08-27 17:11 msay 阅读(1192) 评论(0) 推荐(0) 编辑
摘要: 在客户端向服务器提交http请求的时候,两种最常用的方法是GET和POST。按照规定,get请求只应用于获取数据,因此一般都是用 。相对于GET请求, POST请求则用于提交数据 。对登陆表单的处理,每次登陆可以直接处理登陆表单或者选择在第一次登陆后,保存cookies等信息,下次可直接登陆。以下内 阅读全文
posted @ 2018-08-27 16:38 msay 阅读(2410) 评论(0) 推荐(1) 编辑
摘要: 由于对MySQL卸载的不干净,mysql 的MySQL Connector Net/xxx无法卸载,后期重装无法成功。所以只能采用zip 安装https://www.cnblogs.com/Michael1/p/5806384.html(很nice的文章)。记一下cmd中操作mysql的基本操作 进 阅读全文
posted @ 2018-08-27 16:19 msay 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 参考网站: https://www.cnblogs.com/haomiao/p/5041065.html https://blog.csdn.net/iot_change/article/details/8496977 https://blog.csdn.net/sinat_35121480/art 阅读全文
posted @ 2018-08-27 16:19 msay 阅读(3143) 评论(0) 推荐(0) 编辑
摘要: 反爬虫 反爬虫:就是使用任何技术手段 阻止 批量获取网站信息的方式;其实我们做的就是了解反爬虫的技术,继而反反爬虫。 反爬虫的方式 (1)不返回网页; 网站通过ip访问量反爬虫,对访问进行统计,单个ip访问量超过阈值,则封杀或者输验证码; 通过session(会话控制)访问量反爬虫,session对 阅读全文
posted @ 2018-08-27 16:08 msay 阅读(817) 评论(0) 推荐(1) 编辑
摘要: 整理了一下python 中文件的输入输出及主要介绍一些os模块中对文件系统的操作。 文件输入输出 1、内建函数 ,打开文件返回文件对象。 2、对打开文件进行读取时, 与`readlines()`的区别在于是否一次性的读取所有的内容,并将每行的信息作为列表中的一个子项。 例如:文件test.txt中 阅读全文
posted @ 2018-08-27 15:54 msay 阅读(902) 评论(0) 推荐(2) 编辑
摘要: python2.x版本的字符编码有时让人很头疼,遇到问题,网上方法可以解决错误,但对原理还是一知半解,本文主要介绍 python 中字符串处理的原理,附带解决 json 文件输出时,显示中文而非 unicode 问题。首先简要介绍字符串编码的历史,其次,讲解 python 对于字符串的处理,及编码的 阅读全文
posted @ 2018-08-24 00:07 msay 阅读(83864) 评论(4) 推荐(15) 编辑
摘要: 1. 写在前面 往常都是利用 Python/.NET 语言实现爬虫,然现在作为一名前端开发人员,自然需要熟练 NodeJS。下面利用 NodeJS 语言实现一个糗事百科的爬虫。另外,本文使用的部分代码是 es6 语法。 实现该爬虫所需要的依赖库如下。 1. request: 利用 get 或者 po 阅读全文
posted @ 2017-12-13 21:25 msay 阅读(2367) 评论(0) 推荐(2) 编辑
摘要: 优先级引发的问题 这篇文章对 JavaScript 中的运算符进行小结,很多人对运算符优先级这一知识点都是一带而过。这就导致在写一些比较奇葩的 js 代码,你并不知道它的输出是啥,下面举一个例子。 js 代码如下,请问在控制台中输出的结果为? 粗看题目,想当然的选择输出结果为: 的选项。选完之后,又 阅读全文
posted @ 2017-09-17 15:57 msay 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 1. 写在前面 当我们登录了一个网站,在没有退出登录的情况下,我们关闭了这个网站 ,过一段时间,再次打开这个网站,依然还会是登录状态。这是因为,当我们登录了一个网站,服务器会保存我们的登录状态,直到我们退出登录,或者保存的登录状态过期。那服务器是通过什么存储我们的登录状态的呢? 答案就是 Sessi 阅读全文
posted @ 2017-09-08 16:36 msay 阅读(26141) 评论(5) 推荐(23) 编辑