张叫兽的技术研究院

Sentry从0到1

摘要：无Sentry 在没有sentry的情况下，他的权限逻辑是这样的：jdbc采用hive权限创建的表，只有hive用户可以看到；hue用户是无法看到的； Sentry 在启用sentry，就是基于sentry的授权体系了。安装Sentry 启动Sentry，首先要安装： 1. 安装sentry服务；阅读全文

posted @ 2018-06-12 15:43 张叫兽的技术研究院阅读(1234) 评论(0) 推荐(0) 编辑

Spark的word count

摘要： word count 注意spark的套路： 1. 创建配置配置，创建sparkcontext； 2. 获取数据源； 3. flatmap进行元素独立； 4. filter进行过滤； 5. map封装为元组； 6. reduce进行计数；按照数量排序你可以采用一条龙的方式来进行上述实现，感觉那是阅读全文

posted @ 2018-06-08 11:41 张叫兽的技术研究院阅读(394) 评论(0) 推荐(0) 编辑

Apache Spark 内存管理详解

摘要：在spark里面，内存管理有两块组成，一部分是JVM的堆内内存（on-heap memory），这部分内存是通过spark dirver参数executor-memory以及spark.executor.memory来进行指定；另外一部分是堆外内存（off-heap memory），堆外内存默认是阅读全文

posted @ 2018-06-04 10:04 张叫兽的技术研究院阅读(214) 评论(0) 推荐(0) 编辑

Python与机器学习

摘要： pandas里面的对于数据操作比如where，drop以及dropna等都会有一个属性：inplace，这个单词意思是原地，如果inplace=true代表数据本身要返回（原地数据也会被改变）；如果inplace=false（默认）代表只是返回数据一个副本（copy，原数据并不会被改变）。 Data 阅读全文

posted @ 2018-06-04 09:59 张叫兽的技术研究院阅读(781) 评论(0) 推荐(0) 编辑

Jupyter和IPython

摘要： Jupyter内核就是IPython（Interactive Python）；你看到的按tab键能够自动提示/补齐都是IPython实现的。 IPython其实不只限于IPython，其实你看到的IDE里面的tab键自动感应都是IPython的实现，比如Pycharm里面的Anaconda库就是包含阅读全文

posted @ 2018-06-04 09:24 张叫兽的技术研究院阅读(212) 评论(0) 推荐(0) 编辑

Builder模式

摘要： Builder模式有什么好处？构造函数构造一个函数的好处就是直接，但是缺点就是如果参数比较多，需要重载构造函数或者一个构造函数里面定义多个构造参数，对于调用方来讲十分不友好；另外一种方式就是java bean模式，定义一个简洁的构造函数，然后通过set属性的方式来构造；这种方式避免了构造函数模式阅读全文

posted @ 2018-06-04 09:10 张叫兽的技术研究院阅读(208) 评论(0) 推荐(0) 编辑

线性模型的fit，predict

摘要：线性模型的fit其实一个进行学习的过程，根据数据和标签进行学习；predict则是基于fit之后形成的模型，来决定指定的数据对应于标签（y_train_5)的值。下面的是手写字母判断是否为“5” sgd_clf = SGDClassifier(random_state=42) sgd_clf.fi 阅读全文

posted @ 2018-06-03 18:49 张叫兽的技术研究院阅读(1282) 评论(0) 推荐(1) 编辑

lamba数据架构以及数据湖

摘要：面试大数据项目，面试过程中发现面试官提到的两个概念没有搞清楚： 1. lamba数据架构；这个概念的提出是由storm的作者提出来的，其实主旨就是想要说明，数据的处理分成三层，一类是批处理程序（batch laryer，非实时），比如午夜跑出来的报表，可以供第二天进行消费；第二类是实时增量处理数据（阅读全文

posted @ 2018-05-31 20:30 张叫兽的技术研究院阅读(2502) 评论(0) 推荐(1) 编辑

sklearn, Numpy以及Pandas

摘要： pandas里面的对于数据操作比如where，drop以及dropna等都会有一个属性：inplace，这个单词意思是原地，如果inplace=true代表数据本身要执行该操作；如果inplace=false（默认）代表操作影响的是数据一个副本（copy），返回的也是该副本；所以如果是drop，in 阅读全文

posted @ 2018-05-30 17:51 张叫兽的技术研究院阅读(2131) 评论(0) 推荐(0) 编辑

机器学习概念

摘要：极大似然使用极大似然的大的前提是模型已知，数据独立同分布；他的价值在于可以通过局部数据来获取全局的参数，具体的实现就是通过求导数为零的方式来创造评估方法评估就是利用测试数据来评估一下用训练数据训练的模型。评估方法牵涉到一个很重要的环节就是对数据集进行划分；主要有三种：第一种留出法（leav 阅读全文

posted @ 2018-05-25 16:40 张叫兽的技术研究院阅读(369) 评论(0) 推荐(0) 编辑

下士闻道