03 2019 档案

摘要:1.ls命令(list的缩写):通过ls 命令不仅可以查看linux文件夹包含的文件,而且可以查看文件权限(包括目录、文件夹、文件权限)查看目录信息等等 常用参数: ls -a 列出目录所有文件,包含以.开始的隐藏文件 ls -A 列出除.及..的其它文件 ls -r 反序排列 ls -t 以文件 阅读全文
posted @ 2019-03-29 10:41 jacky912 阅读(149) 评论(0) 推荐(0)
摘要:1 pycharm快捷键及一些常用设置 3 Alt+Enter 自动添加包 4 shift+O 自动建议代码补全 5 Ctrl+t SVN更新 6 Ctrl+k SVN提交 7 Ctrl + / 注释(取消注释)选择的行 8 Ctrl+Shift+F 高级查找 9 Ctrl+Enter 补全 10 阅读全文
posted @ 2019-03-27 11:18 jacky912 阅读(282) 评论(0) 推荐(0)
摘要:分布式爬虫系统 简单的分布式爬虫 分布式爬虫的作用:1.解决目标地址对IP访问频率的限制 2.利用更高的宽带,提高下载速度 3.大规模系统的分布式存储和备份 4.数据的扩展能力 将多进程爬虫部署到多台主机上 将数据库地址配置到统一的服务器上 将数据库设置仅允许特定IP来源的访问请求 设置防护墙,允许 阅读全文
posted @ 2019-03-14 16:46 jacky912 阅读(757) 评论(0) 推荐(0)
摘要:分布式系统(Distributed System) A program(程序) is the code you write # code,代码 A process is what you get when you run it A message(消息) is used to communicate 阅读全文
posted @ 2019-03-14 16:27 jacky912 阅读(269) 评论(0) 推荐(0)
摘要:having 添加having语句(就像where指定条件一样,给每个组指定筛选条件一样,必须跟在group by后面) 以“dept_id”为分类标志统计各单位的职工人数和工资平均数且工资平均数大于4000。 select dept_id,avg(sal) from employee group 阅读全文
posted @ 2019-03-14 09:56 jacky912 阅读(99) 评论(0) 推荐(0)
摘要:多线程爬虫 多线程的复杂性 1.资源、数据的安全性:锁保护 2.原子性:数据操作是天然互斥的 3.同步等待:wait()、notify()、notifyAll() #notify,通知 4.死锁:多个线程对资源互锁,造成死锁 5.容灾:任何线程出现错误,整个进程都会停止 多线程的优势 1.内存空间共 阅读全文
posted @ 2019-03-13 11:30 jacky912 阅读(313) 评论(0) 推荐(0)
摘要:恢复内容开始 1.分布式爬虫 1.使用Selenium+Phantoms 登录 最重要的设置是User-Agent(UA),否则无法跳转链接 from selenium.webdriver.common.desired_capabilities(功能) import DesiredCapabilit 阅读全文
posted @ 2019-03-12 16:45 jacky912 阅读(362) 评论(0) 推荐(0)
摘要:分布式爬虫 Xpath 正则表达式 动态网页 Headless的浏览器:phantomJS 浏览器的驱动:Selenium 1.Xpath 基本语法: 表达式:nodename(节点名) 选取此节点的所有子节点,tag或*选择任意的tag / 从根节点选取,选择直接子节点,不包含更小的后代(例如孙、 阅读全文
posted @ 2019-03-08 16:49 jacky912 阅读(511) 评论(0) 推荐(0)
摘要:1.环境搭建-Python Unix 基础环境-Windows 1.pip,并设置pip源 1.直接下载Anaconda,很多比较难以安装的资源都已经包含了 配置pip conf,自动设置源 配置pip源,各个系统默认pip.ini位置不同,需要根据实际情况设置 #mkdir ~/.pip/ 官网: 阅读全文
posted @ 2019-03-08 14:31 jacky912 阅读(1549) 评论(0) 推荐(0)
摘要:利用HTML5的一个formdata属性,结合jQuery可以很容易实现文件的上传,而且读取文件的上传进度。 注意:formdata属性必须依赖于HTML5,如果按照文本代码实现功能,则必须升级为最新属性(支持HTML5formdata属性) 为了避免页面整体刷新,我们还可以采用ajax+ifram 阅读全文
posted @ 2019-03-07 17:10 jacky912 阅读(251) 评论(0) 推荐(0)
摘要:form表单是页面与web服务器交互过程中最重要的信息来源。 表单提交成功控件 浏览器是如何提交表单的?或者说浏览器在提交表单时需要做哪些事情? 浏览器并不是将所有的表单控件全部发送到服务器的,而是会查找所有的【成功控件】,只将这些成功控件的数据发送到服务端。(成功控件:每个表单中的属性都有一个na 阅读全文
posted @ 2019-03-06 17:11 jacky912 阅读(419) 评论(0) 推荐(0)
摘要:session 在web中,还经常使用session来记录客户端状态。session是服务器端使用的一种记录客户端状态的机制,使用要比cookie简单一些,相应的也增加了服务器的存储压力。 1.什么是session? session是另一种记录客户端状态的机制。不同的是cookie保存在客户端浏览器 阅读全文
posted @ 2019-03-04 15:08 jacky912 阅读(353) 评论(0) 推荐(0)
摘要:会话(session)跟踪是web程序中常用技术,用来跟踪用户的整个会话。常用的会话跟踪技术有cookie和session。cookie通过在客户端记录信息确定用户身份,session通过服务器端记录信息确定用户身份。 1.cookie机制 在程序中会话跟踪技术是非常重要的。理论上,一个用户所有请求 阅读全文
posted @ 2019-03-04 14:23 jacky912 阅读(428) 评论(0) 推荐(0)
摘要:1.同源策略 指浏览器对不同源的脚本或者文本的访问方式进行的限制。比如源a的js不能引入源b的元素属性。 所谓的同源是指两个页面具有相同的协议、主机(也是常说的域名)、端口,三个元素缺一不可。 通过下列示例具体了解一下同源: 同源策略限制了不同源之间的交互,(同源策略限制了不同源之间的交互主要针对j 阅读全文
posted @ 2019-03-04 11:27 jacky912 阅读(572) 评论(0) 推荐(0)
摘要:中间件(middleware) 在Django中,中间件其实就是一个类。在请求到来和结束后,Django会根据自己的规则在合适的时机执行中间件中相应的方法。 在Django项目的settings模块中,有一个 MIDDLEWARE_CLASSES 变量,其中每一个元素就是一个中间件,如下图。 与ma 阅读全文
posted @ 2019-03-01 10:53 jacky912 阅读(190) 评论(0) 推荐(0)