03 2018 档案

摘要:之前学习了正则表达式,但是发现如果用正则表达式写网络爬虫,那是相当的复杂啊!于是就有了Beautiful Soup 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分 阅读全文
posted @ 2018-03-28 18:13 OLIVER_QIN 阅读(888) 评论(0) 推荐(0) 编辑
摘要:新建表DROP TABLE Industry;CREATE TABLE Industry(IndustryCode VARCHAR(40),IndustryName VARCHAR(100),ParentID VARCHAR(40))点击下载插入语句数据截图:现在数据是这个样子的,我们需要找出对应的层级关系,例如:实现SQL如下:SELECTA.IndustryCode AS CLASS01,A.... 阅读全文
posted @ 2018-03-28 11:25 OLIVER_QIN 阅读(733) 评论(0) 推荐(0) 编辑
摘要:re.math()函数从源字符串的起始位置匹配一个模式语法:re.match(pattern, string, flag)第一个参数代表对应的正则表达式,第二个参数代表对应的源字符,第三个参数是可选参数,代表对应的标志位,可以放模式修正符等信息#-*- codingn:utf-8 -*-import restring = "ipythonajsoasaoso"pattern = ".python.... 阅读全文
posted @ 2018-03-27 15:07 OLIVER_QIN 阅读(1113) 评论(0) 推荐(0) 编辑
摘要:元字符表符号说明示例.表示任意字符'abc' >>>'a.c' >>>结果为:'abc' ^表示字符开头'abc' >>>'^abc' >>>结果为:'abc'$表示字符串结尾'abc' >>>'abc$' >>>结果为:'abc'*, +, ?'*'表示匹配前一个字符重复 0 次到无限次,'+'表示匹配前一个字符 阅读全文
posted @ 2018-03-27 13:48 OLIVER_QIN 阅读(311) 评论(0) 推荐(0) 编辑
摘要:原子是正则表达式的最基本的组成单位,而且在每个模式中最少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成。 原子分类 1.普通字符作为原子 普通字符是编写正则表达式时最常见的原子了,包括所有的大写和小写字母字符、所有数字等。例如,a——z、A——Z、0——9。 运行结果 2.一 阅读全文
posted @ 2018-03-27 13:28 OLIVER_QIN 阅读(326) 评论(0) 推荐(0) 编辑
摘要:大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息例如:我们以【CSDN博客】的限制信息为例子在浏览器输入:https://blog.csdn.net/robots.txt获取到信息如下:从上图我们可以看出:①该网站无论用户使用哪种代理都允许爬取②但是当爬取/css,/images…等链接的时候是禁止的③我们可以看到还存... 阅读全文
posted @ 2018-03-27 10:57 OLIVER_QIN 阅读(684) 评论(0) 推荐(0) 编辑
摘要:Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy Engine(引擎) : 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯,信号、数据传递等。Sch... 阅读全文
posted @ 2018-03-26 18:00 OLIVER_QIN 阅读(458) 评论(0) 推荐(0) 编辑
摘要:洛伦茨曲线和基尼系数 1905年,统计学家洛伦茨提出了洛伦茨曲线,如图一。将社会总人口按收入由低到高的顺序平均分为10个等级组,每个等级组均占10%的人口,再计算每个组的收入占总收入的比重。然后以人口累计百分比为横轴,以收入累计百分比为纵轴,绘出一条反映居民收入分配差距状况的曲线,即为洛伦茨曲线。 为了用指数来更好的反映社会收入分配的平等状况,1912年,意大利经济学家基尼根据洛伦茨曲线计算出一... 阅读全文
posted @ 2018-03-26 11:05 OLIVER_QIN 阅读(104927) 评论(3) 推荐(6) 编辑
摘要:urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程的数据下载到本地 urllib语法 参数url:传入的网址,网址必须得是个字符串 参数filename:指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。) 参数reporthook:是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函... 阅读全文
posted @ 2018-03-24 21:57 OLIVER_QIN 阅读(5867) 评论(0) 推荐(0) 编辑
摘要:urllib.error可以接受来自urllib.request产生的异常。urllib.error有两个方法:①URLError ②HTTPErrorURLErrorURLError产生的原因①网络无连接,即本机无法上网②连接不到特定的服务器③服务器不存在运行结果表明:连接超时HTTPErrorHTTPError是URLError的子类,在你利用URLopen方法发出一个请求时,服务器上都会对应... 阅读全文
posted @ 2018-03-23 10:35 OLIVER_QIN 阅读(956) 评论(0) 推荐(1) 编辑
摘要:上一节进行了网页的简单抓取,接下来我们详细的了解一下两个重要的参数url与data urlopen详解 URL参数 Open the URL url, which can be either a string or a Request object. 大概意思:URL参数不仅可以是一个字符串也可以是 阅读全文
posted @ 2018-03-22 17:17 OLIVER_QIN 阅读(1134) 评论(0) 推荐(1) 编辑
摘要:当你给dir()提供一个模块名字时,它返回在那个模块中定义的名字的列表。当没有为其提供参数时, 它返回当前模块中定义的名字的列表。如果您需要快速获取任何的Python函数或语句的信息,那么您可以使用内置的“help”(帮助)功能示例from urllib import requestprint(dir(request))#urlopen详解print('*********urlopen详解****... 阅读全文
posted @ 2018-03-22 15:48 OLIVER_QIN 阅读(401) 评论(0) 推荐(0) 编辑
摘要:(1)在激活界面的License server输入:http://idea.liyang.io;或者:点击help→Register→License sever ,输入http://idea.liyang.io(2)在浏览器的地址栏输入:http://idea.lanyus.com/,该网址,无需修改用户名,点击获取注册码。复制该注册码,粘贴在注册界面的Activation code的输入框中,点... 阅读全文
posted @ 2018-03-22 14:26 OLIVER_QIN 阅读(650) 评论(0) 推荐(0) 编辑
摘要:运行平台:Winodows 10 Python版本:Python 3.4.2 IDE:Sublime text3 网络爬虫 网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baid... 阅读全文
posted @ 2018-03-22 12:02 OLIVER_QIN 阅读(618) 评论(0) 推荐(0) 编辑
摘要:风险一词的由来,最为普遍的说法是,在远古时期,以打渔捕捞为生的渔民们,每次出海前都要祈祷,祈求神灵保佑他们能够归来;他们在长期的捕捞实践中深深意味到风给他们带来了无法预测,无法确定的损失。因此,在出海打渔的生活中,“风”即意味着“险”,这就是“风险”的由来 银行是经营风险的企业,承受风险是银行业的核 阅读全文
posted @ 2018-03-20 11:35 OLIVER_QIN 阅读(355) 评论(0) 推荐(0) 编辑
摘要:不齐整维:没有子节点的维度 越级维:层级维度出现断裂,则称为越级维 下图我们就可以清晰的看出: 首先,我们将表导入到资料库做好与事实表的关联后并建立相应维 以下是按照一般维度创建维后的结果 创建完成之后,我们在前端建立分析引用查看 我们打开查看后发现,在【A类】下的【A04类】下为空,并且我们点击空值后就报错 此时,我们去资料库,将【越级维】属性选中 刷新元数据后继续查看 ... 阅读全文
posted @ 2018-03-15 23:41 OLIVER_QIN 阅读(251) 评论(0) 推荐(0) 编辑
摘要:现在我们想做如下操作:想把表1的数据转化为表2的数据,那么我们只需要如下这段代码即可解决需求Sub 转置()Dim i%, arrarr = Application.InputBox("选择区域", Type:=8)t1 = UBound(arr)t2 = UBound(arr, 2)ReDim brr(1 To t1 * t2, 1 To 3)For i = 2 To t1 m = 1 ... 阅读全文
posted @ 2018-03-14 17:53 OLIVER_QIN 阅读(889) 评论(0) 推荐(0) 编辑
摘要:现在有表格如下,差异A中的红色标记为区域1在区域2中找不到对应的值,差异B中的红色标记为区域2在区域1中找不到对应的值那么怎么去查找呢?这里用到COUNTIF跟数组公式C3=SUM(COUNTIF(A3,$E$3:$E$6)*COUNTIF(B3,$F$3:$F$6))这样就成功找出来了! 阅读全文
posted @ 2018-03-14 15:43 OLIVER_QIN 阅读(7446) 评论(0) 推荐(0) 编辑
摘要:三个时间序列函数 AGO: 实现同环比 TO DATE:实现累计指标,如MTD月累计、YTD年累计 Period Rolling:当前时间的x个时间单位开始到y个时间单位结束这一时段内的度量总和 BIEE使用时间函数的前提 除了跟其他普通层级一样的设置以外,还需要 (普通为层级设置参照时间维设置) 阅读全文
posted @ 2018-03-14 00:43 OLIVER_QIN 阅读(1202) 评论(0) 推荐(0) 编辑
摘要:Countif在Excle中是相当的使用,那么我们看下Countif的如下几个功能:①一对一对比两列数据②输入时必须指定包含指定字符③帮助Vlookup实现一对多查找④统计不重复的个数一对一对比两列数据如下图:要求对比A列跟D列的姓名,在B和E列出哪些是相同的,那些是不同的B2=IF(COUNTIF(D:D,A2)>0,"相同 ","不同")E2=IF(COUNTIF(A:A,D2)>0,"相同"... 阅读全文
posted @ 2018-03-13 18:30 OLIVER_QIN 阅读(879) 评论(0) 推荐(0) 编辑
摘要:我们在使用仪表盘提示的时候,常常会遇到这种问题,客户需要将一些常见的放在最上边,这样方便显示 例如:现在有数据库表如下 我们需要在提示中展示机构名称,我们如下新建提示 展示效果如下: 我们从上图可以看出存在两个问题: ①展示的值中存在空值 ②展示的值没有排序,很乱(只是自动按照字母排序,并非我们需要的结果) 空值处理 在资料库中找到该字段对应的物理字段 设置好之后,就没有空值了 设置值顺... 阅读全文
posted @ 2018-03-12 22:57 OLIVER_QIN 阅读(339) 评论(0) 推荐(0) 编辑
摘要:在BIEE中,我们可以使用饼图来展示报表数据 饼图在使用中有三元素:①切片 ②饼图 ③度量 那么我们来分别看下这三个元素的功能分别是什么? 我们通过上图可以看出度量中存在2个度量,那么此时的饼图数量是2个,【Measure Labels(度量标签)】,此位置也可以直接使用维度控制,例如:我们使用维度【日期】,那么有多少个日期就会有多少个饼图 多个度量标签 使用日期作为度量 具体的效果图如下... 阅读全文
posted @ 2018-03-11 22:53 OLIVER_QIN 阅读(348) 评论(0) 推荐(0) 编辑
摘要:时间维度的建立 1.环境准备 ①新建时间维度表:TIME_DIMENSION 建立时间维度表并插入数据 ---------------创建时间维度表 create table TIME_DIMENSION ( the_date NUMBER not null, date_name NVARCHAR2(15), the_year NUMBER, year_nam... 阅读全文
posted @ 2018-03-11 00:30 OLIVER_QIN 阅读(1064) 评论(0) 推荐(0) 编辑
摘要:以上是BIEE开发的流程图,通过流程图我们可以看出在BIEE中存在以下主要内容: 仪表盘 仪表盘页 分析 仪表盘提示 主题区域 Catalog RPD 以下是一些文件以及资料库存储路径 资料库存储路径:D:\obiee\instances\instance1\bifoundation\OracleBIServerComponent\coreapplication_obis1\reposito... 阅读全文
posted @ 2018-03-10 18:04 OLIVER_QIN 阅读(278) 评论(0) 推荐(0) 编辑
摘要:Oracle BI Server 该组件主要是管理RPD的,如果该组件不正常,那么Admin Tool将无法联机打开 Oracle交互式信息板 这个组件控制BIEE仪表盘,我们已经建立好的分析、提示等将发布到该组件,供用户访问查看。 Oracle Answers 该组件的作用主要是创建分析,创建和修改图表、数据透视表 Oracle Delivers 该组件是自动检测和警报以实现预先洞察,... 阅读全文
posted @ 2018-03-10 17:24 OLIVER_QIN 阅读(324) 评论(0) 推荐(0) 编辑
摘要:现在存在以下数据 如上图:A01与A02同时存在201710、201711、201712中 我们现在要将其查找出来 如果上图的表结构如下: 那么查询的SQL如下: 查询结果: 阅读全文
posted @ 2018-03-07 22:46 OLIVER_QIN 阅读(163) 评论(0) 推荐(0) 编辑
摘要:有时候,我们在使用BIEE的时候回出现一些问题,需要借助物理SQL来进行问题分析。通过物理SQL我们就可以看到BIEE在数据库中是如何去检索出数据库。 查看物理SQL的方式 【登录BIEE】--【管理】--【会话管理】--【管理会话】 打开后,点击【查看日志】,即可查看物理SQL 点击查看日之后,如 阅读全文
posted @ 2018-03-06 21:29 OLIVER_QIN 阅读(603) 评论(0) 推荐(0) 编辑
摘要:现在我们制作了一个简单的下拉菜单,如下:但是随着公司的逐渐扩大,部门也变得多了,目前我是把数据范围写死的,所有每次添加一个部门,就得修改数据范围,那么现在我们不想修改这个范围了,想让他每次添加部门后,下拉菜单自己同步方法一:使用函数我们使用offset函数来动态的引用,使用快捷键【ctrl+F3】打开【名称管理器】定义名称如下:引用位置内容:=OFFSET(Sheet3!$A$2:$A$5,,,C... 阅读全文
posted @ 2018-03-02 16:00 OLIVER_QIN 阅读(1137) 评论(0) 推荐(0) 编辑