上一页 1 2 3 4 5 6 7 8 9 10 ··· 50 下一页

2019年12月2日

使用PhantomJS报warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '解决方法

摘要: selenium已经放弃PhantomJS了,建议使用火狐或者谷歌无界面浏览器。使用无界面浏览器Selenium+Headless FirefoxSelenium+Headless Firefox和Selenium+Firefox,区别就是实例option的时候设置-headless参数。前提条件: 阅读全文

posted @ 2019-12-02 20:52 LoaderMan 阅读(2794) 评论(0) 推荐(0) 编辑

案例:执行 JavaScript 语句

摘要: 模拟滚动条滚动到底部 效果: 阅读全文

posted @ 2019-12-02 20:27 LoaderMan 阅读(281) 评论(0) 推荐(0) 编辑

2019年11月30日

案例:网站模拟登录

摘要: 登入快照显示; 阅读全文

posted @ 2019-11-30 16:32 LoaderMan 阅读(779) 评论(0) 推荐(0) 编辑

2019年11月29日

爬虫中Selenium和PhantomJS

摘要: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们 阅读全文

posted @ 2019-11-29 21:26 LoaderMan 阅读(598) 评论(0) 推荐(0) 编辑

爬虫中采集动态HTML介绍

摘要: JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。 我们可以在网页源代码的<scripy>标签里看到,如: jQuery jQuery 是一个十分常见的库,70% 阅读全文

posted @ 2019-11-29 21:25 LoaderMan 阅读(578) 评论(0) 推荐(0) 编辑

2019年11月28日

Oracle系列十五 控制用户权限

摘要: 权限 数据库安全性 --系统安全性 --数据安全性 系统权限: 对于数据库的权限 对象权限: 操作数据库对象的权限 系统权限 超过一百多种有效的权限 数据库管理员具有高级权限以完成管理任务,例如: 创建用户 DBA 使用 CREATE USER 语句创建用户 注:oracle 12c在结构上做出了调 阅读全文

posted @ 2019-11-28 19:56 LoaderMan 阅读(241) 评论(0) 推荐(0) 编辑

2019年11月27日

Oracle系列十四 序列、索引和同义词

摘要: 序列 : 提供有规律的数值。索引 : 提高查询的效率同义词 :给对象起别名 序列: 可供多个用户用来产生唯一数值的数据库对象 自动提供唯一的数值 共享对象 主要用于提供主键值 将序列值装入内存可以提高访问效率 CREATE SEQUENCE 语句定义序列: 创建序列 创建序列 DEPT_DEPTID 阅读全文

posted @ 2019-11-27 20:33 LoaderMan 阅读(252) 评论(0) 推荐(0) 编辑

2019年11月26日

Oracle系列十三 视图

摘要: 视图 :从表中抽出的逻辑上相关的数据集合。 视图是一种虚表。 视图建立在已有表的基础上, 视图赖以建立的这些表称为基表。 向视图提供数据内容的语句为 SELECT 语句, 可以将视图理解为存储起来的 SELECT 语句. 视图向用户提供基表数据的另一种表现形式 为什么使用视图 控制数据访问 简化查询 阅读全文

posted @ 2019-11-26 20:04 LoaderMan 阅读(207) 评论(0) 推荐(0) 编辑

2019年11月25日

多线程爬虫案例

摘要: Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的 阅读全文

posted @ 2019-11-25 20:37 LoaderMan 阅读(650) 评论(0) 推荐(1) 编辑

2019年11月24日

CentOS7静默安装Oracle 18g数据库(无图形化界面)

摘要: 说明: 因为是静默安装,所以我们不需要安装图形界面 准备:下载Oracle软件 官方网站:http://www.oracle.com/technetwork/database/enterprise-edition/downloads/根据自己的服务器,下载相应的软件 交换空间: 重要: RHEL 7 阅读全文

posted @ 2019-11-24 21:00 LoaderMan 阅读(625) 评论(0) 推荐(0) 编辑

爬虫案例:博客文章列表

摘要: 博客实例: 爬取博客园文章列表,假设页面的URL是https://www.cnblogs.com/loaderman 要求: 使用requests获取页面信息,用XPath / re 做数据提取 获取每个博客里的标题,描述,链接地址,日期等 保存到 json 文件内 代码 效果: 阅读全文

posted @ 2019-11-24 15:49 LoaderMan 阅读(178) 评论(0) 推荐(0) 编辑

爬虫数据提取之JSON与JsonPATH

摘要: 数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文

posted @ 2019-11-24 15:46 LoaderMan 阅读(748) 评论(0) 推荐(0) 编辑

2019年11月23日

案例:使用BeautifuSoup4的爬虫

摘要: 使用BeautifuSoup4解析器,将招聘网页上的招聘单位名称存储出来。其他信息可类似爬取即可 效果: 阅读全文

posted @ 2019-11-23 16:18 LoaderMan 阅读(294) 评论(0) 推荐(0) 编辑

爬虫中BeautifulSoup4解析器

摘要: CSS 选择器:BeautifulSoup4 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树 阅读全文

posted @ 2019-11-23 08:24 LoaderMan 阅读(381) 评论(0) 推荐(0) 编辑

2019年11月22日

python2.7报错Non-ASCII character '\xe5' in file的解决方法

摘要: 在文件首行加#coding=utf-8,一定要在最顶行添加 阅读全文

posted @ 2019-11-22 21:23 LoaderMan 阅读(515) 评论(0) 推荐(0) 编辑

Oracle系列十二 约束

摘要: 约束是表级的强制规定有以下五种约束: NOT NULL UNIQUE PRIMARY KEY FOREIGN KEY CHECK 注意事项 如果不指定约束名 ,Oracle server 自动按照 SYS_Cn 的格式指定约束名 创建和修改约束: 可以在表级或列级定义约束 可以通过数据字典视图查看约 阅读全文

posted @ 2019-11-22 20:48 LoaderMan 阅读(395) 评论(0) 推荐(0) 编辑

2019年11月21日

python爬虫案例:使用XPath爬网页图片

摘要: 用XPath来做一个简单的爬虫,尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。 效果: 阅读全文

posted @ 2019-11-21 21:52 LoaderMan 阅读(2715) 评论(0) 推荐(0) 编辑

python爬虫中XPath和lxml解析库

摘要: 什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官 阅读全文

posted @ 2019-11-21 20:12 LoaderMan 阅读(1056) 评论(0) 推荐(1) 编辑

案例:使用正则表达式的爬虫

摘要: 用正则表达式进行对爬取到的全部网页源代码进行筛选。 网站: https://www.cnblogs.com/loaderman/default.html?page=1 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行翻页的时候,注意url地址的变化: 第一页url: https://www. 阅读全文

posted @ 2019-11-21 20:03 LoaderMan 阅读(1374) 评论(0) 推荐(0) 编辑

2019年11月20日

爬虫的正则表达式re模块

摘要: 爬虫一共就四个主要步骤: 对于down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西无用的,因此需要将过滤和匹配出来。 那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索 阅读全文

posted @ 2019-11-20 21:23 LoaderMan 阅读(392) 评论(0) 推荐(0) 编辑

爬虫中Requests模块

摘要: Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2019-11-20 20:06 LoaderMan 阅读(212) 评论(0) 推荐(0) 编辑

2019年11月19日

Oracle系列十一 数据处理

摘要: 数据操纵语言 DML(Data Manipulation Language – 数据操纵语言) 可以在下列条件下执行: 事务是由完成若干项工作的DML语句组成的 INSERT 语句语法 使用 INSERT 语句向表中插入数据。 使用这种语法一次只能向表中插入一条数据。 插入数据 为每一列添加一个新值 阅读全文

posted @ 2019-11-19 21:07 LoaderMan 阅读(251) 评论(0) 推荐(0) 编辑

2019年11月18日

爬虫urllib2 的异常错误处理URLError和HTTPError

摘要: urllib2 的异常错误处理 在我们用urlopen或opener.open方法发出一个请求时,如果urlopen或opener.open不能处理这个response,就产生错误。 这里主要说的是URLError和HTTPError,以及对它们的错误处理。 URLError URLError 产生 阅读全文

posted @ 2019-11-18 20:10 LoaderMan 阅读(3659) 评论(0) 推荐(0) 编辑

爬虫urllib2中Handler处理器和自定义Opener

摘要: Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,urlopen是一个特殊的opener(也就是模块已经构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: 阅读全文

posted @ 2019-11-18 19:58 LoaderMan 阅读(210) 评论(0) 推荐(0) 编辑

2019年11月17日

爬虫urllib2库的基本使用

摘要: 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,urllib2库基本使用。 urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) urllib2 官方文档:https://docs.python.or 阅读全文

posted @ 2019-11-17 08:17 LoaderMan 阅读(322) 评论(0) 推荐(0) 编辑

2019年11月16日

Oracle系列十 创建和管理表

摘要: 常见的数据库对象 Oracle 数据库中的表 用户定义的表: 用户自己创建并维护的一组表 包含了用户所需的信息 如:SELECT * FROM user_tables;查看用户创建的表 数据字典: 由 Oracle Server 自动创建的一组表 包含数据库信息 查询数据字典查看用户定义的表. 查看 阅读全文

posted @ 2019-11-16 16:52 LoaderMan 阅读(206) 评论(0) 推荐(0) 编辑

HTTP和HTTPS概念

摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文

posted @ 2019-11-16 08:38 LoaderMan 阅读(709) 评论(0) 推荐(0) 编辑

通用爬虫和聚焦爬虫概念

摘要: 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作原理 通用网络爬虫 阅读全文

posted @ 2019-11-16 08:36 LoaderMan 阅读(738) 评论(0) 推荐(0) 编辑

2019年11月13日

oracle系列九 SET运算符查询

摘要: 将多个查询用 SET 操作符连接组成一个新的查询 UNION/UNION ALL INTERSECT MINUS 排序:ORDER BY UNION 操作符 UNION 操作符返回两个查询的结果集的并集 UNION ALL 操作符 UNION ALL 操作符返回两个查询的结果集的并集。对于两个结果集 阅读全文

posted @ 2019-11-13 21:44 LoaderMan 阅读(279) 评论(0) 推荐(0) 编辑

【java爬虫】利用webmagic框架实战demo

摘要: webmagic框架:http://webmagic.io/ WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件 PageProcessor主要分为三个部分,分别是爬虫的配置、页面元素的抽取和链接的发现。 Pipeline用于保存 阅读全文

posted @ 2019-11-13 12:53 LoaderMan 阅读(868) 评论(0) 推荐(0) 编辑

2019年11月12日

Oracle系列八 高级子查询

摘要: 子查询 子查询 (内查询) 在主查询执行之前执行 主查询(外查询)使用子查询的结果 多列子查询 主查询与子查询返回的多个列进行比较 多列子查询中的比较分为两种: 成对比较 问题:查询与141号或174号员工的manager_id和department_id相同的其他员工的employee_id, m 阅读全文

posted @ 2019-11-12 09:07 LoaderMan 阅读(194) 评论(0) 推荐(0) 编辑

2019年11月11日

Mac下 python2和python3共存

摘要: 一般是python2默认安装了,python3没有安装,这时候一般使用命令:brew install python3 进行安装 不同方法安装python的路径是不一样的,如下所示: 接下来就要看具体步骤了。 1 控制台输入:vim ~/.bash_profile 并输入如下代码: # Setting 阅读全文

posted @ 2019-11-11 20:28 LoaderMan 阅读(482) 评论(0) 推荐(0) 编辑

Windows上python2和python3共存

摘要: 1.找到python2安装目录 2.将应用程序中的python重命名为python2,或自行定义。 3.为python2设置系统变量中的path变量。注意,记得加上英文的分号。 验证:输入python2,提示python2版本即安装成功。 1.python3同理。找到python3安装目录,将应用程 阅读全文

posted @ 2019-11-11 20:28 LoaderMan 阅读(238) 评论(0) 推荐(0) 编辑

2019年11月10日

Node.js 实现第一个应用以及HTTP模块和URL模块应用

摘要: 到该文件夹下,cmd命令运行: 浏览器显示: HTTP 模块、URL 模块 Node.js 中,将很多的功能,划分为了一个个 module(模块)。 Node.js 中的很多功能都是通过模块实现。 HTTP 模块的使用 如第一个代码块, req.url URL 地址。所有的路由设计,都是通过 req 阅读全文

posted @ 2019-11-10 14:26 LoaderMan 阅读(224) 评论(0) 推荐(0) 编辑

Nodejs介绍和环境搭建

摘要: Nodejs是JavaScript的运行环境,它让 Java Script 可以开发后端程序,实现几乎其他后端 Node.js 是一个 Javascript 运行环境(runtime) 可以与 PHP、JSP、Python、Ruby 等后端语言平起平坐。 Nodejs 是基于 V8 引擎,V8 是 阅读全文

posted @ 2019-11-10 09:08 LoaderMan 阅读(526) 评论(0) 推荐(0) 编辑

2019年11月9日

Oracle系列七 子查询

摘要: 子查询语法 子查询 (内查询) 在主查询之前一次执行完成。 子查询的结果被主查询(外查询)使用 。 示例: 注意事项 子查询要包含在括号内。 将子查询放在比较条件的右侧。 单行操作符对应单行子查询,多行操作符对应多行子查询。 子查询类型单行子查询 只返回一行。 使用单行比较操作符。 示例: 返回jo 阅读全文

posted @ 2019-11-09 15:07 LoaderMan 阅读(193) 评论(0) 推荐(0) 编辑

2019年11月7日

Oracle系列六 分组函数

摘要: 分组函数作用于一组数据,并对一组数据返回一个值。 组函数类型 AVG COUNT MAX MIN STDDEV SUM 组函数语法 AVG(平均值)和 SUM (合计)函数 可以对数值型数据使用AVG 和 SUM 函数。 COUNT(计数)函数 COUNT(*) 返回表中记录总数,适用于任意数据类型 阅读全文

posted @ 2019-11-07 20:23 LoaderMan 阅读(474) 评论(0) 推荐(0) 编辑

2019年11月5日

Oracle系列五 多表查询

摘要: 笛卡尔集笛卡尔集会在下面条件下产生: 省略连接条件 连接条件无效 所有表中的所有行互相连接 为了避免笛卡尔集, 可以在 WHERE 加入有效的连接条件。 Oracle 连接使用连接在多个表中查询数据。 在 WHERE 子句中写入连接条件。 在表中有相同列时,在列名之前加上表名前缀 等值连接示例 多个 阅读全文

posted @ 2019-11-05 20:06 LoaderMan 阅读(297) 评论(0) 推荐(0) 编辑

2019年11月3日

Oracle系列四 单行函数查询语句

摘要: 单行函数 操作数据对象 接受参数返回一个结果 只对一行进行变换 每行返回一个结果 可以转换数据类型 可以嵌套 参数可以是一列或一个值 包含:字符,数值,日期,转换,通用 字符函数1.大小写控制函数:这类函数改变字符的大小写。 示例: 2.字符控制函数 示例: 数字函数 DUAL 是一个‘伪表’,可以 阅读全文

posted @ 2019-11-03 16:16 LoaderMan 阅读(255) 评论(0) 推荐(0) 编辑

2019年11月1日

轻量级Web服务器http-server

摘要: http-server是一个简单的零配置命令行http服务器。可用于h5页面手机端测试 Vue 、Angualr、React项目打包后真机测试github地址:https://github.com/indexzero/http-server 让电脑和手机处于同一局域网 1、电脑和手机都连路由器 2、 阅读全文

posted @ 2019-11-01 22:21 LoaderMan 阅读(1518) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 10 ··· 50 下一页

导航