05 2018 档案
摘要:解决ORA-21561 在linux上使用sqlplus连接oracle数据库 解决过程在终端上输入:~ hostnamechina查看/etc/hosts文件:~ cat /etc/hosts127.0.0.1 localhost保持hostname与hosts文件中127.0.0.1对应的名称一
阅读全文
摘要:简介 PrettyTable 是python中的一个第三方库,可用来生成美观的ASCII格式的表格,十分实用。 安装 示例 从已有文件创建 按行添加数据 结果 按列添加数据 输出结果 使用不同的输出风格 输出结果 输出结果 自定义表格输出样式 输出结果 输出结果 输出结果 手动控制样式 摘自pret
阅读全文
摘要:easy_install 安装 卸载命令 setup.py安装 帮助你纪录安装细节方便你卸载 这时所有的安装细节都写到 log 里了想要卸载的时候通过以下命令 就可以干净卸载了
阅读全文
摘要:解决git问题 Push rejected: Push to origin/master was rejected 意思是git拒绝合并两个不相干的东西 此时你需要在打开Git Bash,然后进入相应的目录,然后敲git命令 出现类似于这种信息就说明pull成功了: 将本地仓库中的推送到github
阅读全文
摘要:Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序。它使您能够使用JSON API部署(上传)您的项目并控制其spider。 Scrapyd-client Scrapyd-client是一个专门用来发布scrapy爬虫的工具,安装该程序之后会自动在python目录\scr
阅读全文
摘要:Click Click 是 Flask 的开发团队 Pallets 的另一款开源项目,它是用于快速创建命令行的第三方模块。 我们知道,Python 内置了一个 Argparse 的标准库用于创建命令行,但使用起来有些繁琐,Click 相比于 Argparse,就好比 requests 相比于 url
阅读全文
摘要:Pycharm使用Git 1.设置git程序路径 2.设置github连接 3.创建git respository 4.提交文件 5.共享给GitHub 6.修改文件push到版本库 7.从版本库checkout 项目 登录GitHub 复制clone地址到URL栏中Test 点击clone,clo
阅读全文
摘要:git 删除 repository 打开版本库,选择要删除的repository 点击Settings 找到删除选项 输入repository name,点击delet…… 删除本地仓库 执行git init命令 在本地目录下找到.git文件 删除.git 删除本地仓库目录文件
阅读全文
摘要:git detached HEAD 你可以认为 HEAD(大写)是”current branch”(当下的分支)。当你用git checkout切换分支的时候,HEAD 修订版本重新指向新的分支。 有的时候HEAD会指向一个没有分支名字的修订版本,这种情况叫”detached HEAD”。这时候我们
阅读全文
摘要:安装PythonIDE -Anaconda 打开subtext,通过快捷键 cmd+shift+P 打开 Package Control 来安装其他的插件了。 输入 install 然后你就能看见屏幕上出现了 Package Control: Install Package,点击回车然后搜索你想要的
阅读全文
摘要:Python--DBUtil包 1 简介 DBUtils是一套Python数据库连接池包,并允许对非线程安全的数据库接口进行线程安全包装。DBUtils来自Webware for Python。 DBUtils提供两种外部接口: PersistentDB :提供线程专用的数据库连接,并自动管理连接。
阅读全文
摘要:python操作oracle数据库-查询 参照文档 http://www.oracle.com/technetwork/cn/articles/dsl/mastering-oracle-python-1391323-zhs.html http://cx-oracle.readthedocs.io/e
阅读全文
摘要:准备 在断网的和联网的机器安装pip,下载地址https://pypi.python.org/pypi/pip 在联网的开发机器上安装好需要的包 例如: pip3 install paramiko pip3 install fabric 打包已安装的包 新建pyenv文件夹用来存储下载下来的所需安装
阅读全文
摘要:下载中间件 下载器中间件是介于Scrapy的request/response处理的钩子框架。 是用于全局修改Scrapy request和response的一个轻量、底层的系统 编写您自己的下载器中间件 每个中间件组件是一个定义了以下一个或多个方法的Python类 使用中间件随机选择头部信息 爬取天
阅读全文
摘要:下载安装 下载地址https://www.anaconda.com/download/ 旧版本下载https://repo.continuum.io/archive/ 比如下载Anaconda3-4.4.0-Linux-x86_64.sh 安装用root用户 安装完后增加环境变量 验证安装结果 在终
阅读全文
摘要:Scrapy发送Post请求 防止爬虫被反主要有以下几个策略 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) 禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)
阅读全文
摘要:练习题: 1.logging模块有几个日志级别? 2.请配置logging模块,使其在屏幕和文件里同时打印以下格式的日志 代码 3.json、pickle、shelve三个区别是什么? 4.json的作用是什么? 5.subprocess执行命令方法有几种? 6.为什么要设计好目录结构? 7.打印出
阅读全文
摘要:通过cookies信息爬取 分析header和cookies 通过subtext粘贴处理header和cookies信息 处理后,方便粘贴到代码中 爬取拉钩信息代码 展示结果
阅读全文
摘要:CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类。 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页, 而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link
阅读全文
摘要:案例1:爬取内容存储为一个文件 1.建立项目 2.编写item文件 3.建立spider文件 编写spider类逻辑 4.建立pipeline文件 存储数据 5.设置settiing 6.执行程序 json文件 案例2:爬取内容存储为两个文件 案例2与只是把案例1中的概率页和详细内容页分成两个文件去
阅读全文
摘要:安装 windows linux安装 Scrapy框架介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需要。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 文档 http://scrapy-
阅读全文
摘要:创建用户 设置ssh登录 如下 修改完毕后,保存文件,重启ssh服务
阅读全文
摘要:安装python 安装pip 解决pip is configured with locations that require TLS/SSL问题 安装java ##use for JAVA 1.6 JAVA_HOME=/usr/java/jdk1.6.0_45PATH=$JAVA_HOME/bin:
阅读全文
摘要:re模块 正则表达式就是字符串的匹配规则,在多数编程语言里都有相应的支持,python里对应的模块是re。 元字符 量词: 字符组 : [字符组] 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示字符分为很多类,比如数字、字母、标点等等。假如你现在要求一个位置"只能出现一个数
阅读全文