摘要:
1.背景 最近看同事在搞自动化测试,便想着自己在本地搭建一个自动化点击页面环境。主要是Selenium操作谷歌游览器进行访问百度,然后搜索关键词,获取搜索的内容。 2.环境准备 (1)查看本地谷歌游览器版本号,点击游览器右上角->设置-关于chrome即可获取,目前我的游览器是最新版本的。 (2)下 阅读全文
摘要:
上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。 训练数据,第一个值是标签,下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2 阅读全文
摘要:
本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。 数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6 阅读全文
摘要:
1.背景 最近整理以前的文件,发了一篇有意思的关于极验验证码破解思路的文章。现在回过头来思考感觉挺有意思的,分享给大家。 百度百科对极验的定义如下: 极验验证是一种在计算机领域用于区分自然人和机器人的,通过简单集成的方式,为开发者提供安全、便捷的云端验证服务。与以往传统验证码不同的是,极验通过分析用 阅读全文
摘要:
最近看了以前写的Sqoop脚本,就顺手整理一下数据导入导出的相关参数使用方法及解释。 参数 解释 --connect <jdbc-uri> 关系数据库连接地址,比如mysql的 jdbc:mysql://xx.x.35.xx:3306/mytest --connection-manager <cla 阅读全文
摘要:
最近看了以前写的Sqoop脚本,就顺手整理一下数据导入导出的相关参数使用方法及解释。 参数 解释 --connect <jdbc-uri> 关系数据库连接地址,比如mysql的 jdbc:mysql://xx.x.35.xx:3306/mytest --connection-manager <cla 阅读全文
摘要:
记录一个导数的小坑,数仓里面的数据需要导出到mysql,然后报表展示,并且需要把一段文字里面的换行功能体现出来;数仓里面的原始数据采用的是$符号进行分割每一行数据,直接把$符号替换为\n然后导出到mysql,发现没有生效,反而在页面上把\n展示出来了。那么注意了,经过反复尝试写成\\\n,然后把这个 阅读全文
摘要:
数仓中表类型有很多,这里罗列一下数仓中各种表的区别及使用场景。 1.拉链表 (1)记录一个实体的所有历史状态变化。 (2)每个状态都有一个起始日期,目前有效的这一条可用很大的日期表示,比如2999-01-01等。 (3)当状态发生变化时,上一条状态的结束日期字段被更新为当前日期。 (4)当需要获取某 阅读全文
摘要:
事实表主要由两部分组成,一部分是主键和外键组成的键值部分,另一部分是用来描述业务过程的事实度量,也不排除部分设计人员把部分维度退化进去,从而使事实表再加一部分退化维度。在维度建模中事实表的设计一般遵循五大步骤:1.确定业务过程-》2.定义粒度-》3.确定维度-》4.确定事实-》5.冗余维度属性。通过 阅读全文
摘要:
离线数仓数据源的变化对数仓的影响是巨大的,所以我们不但要做好事后监控,也要做好事前的各种流程制度规范,比如所有业务的升库语句需要DBA对其进行管控,只能由DBA进行升库处理,并且做好处理记录,同时把相关变更通知到数据部门。为了防止有导致异常的致命性错误,最好能把binlog监控的就监控起来,这样数据 阅读全文