张叫兽的技术研究院

Python的rand vs randn以及linspace

摘要： Numpy里面的randn是满足了整体分布的，normal distribution（正态分布）；rand则是满足了Uniform Distribution（均匀分布）； Linspace(start, end, numercount)：start：开始数，end：结束数，numbercount：均分开始数和结束数。Endpoint，是一个布尔值，true代表范围是包含最后一个数（end，相当于数... 阅读全文

posted @ 2018-10-03 15:11 张叫兽的技术研究院阅读(885) 评论(0) 推荐(0) 编辑

关于fit和transform

摘要： Fit是对于数据进行拟合，所谓拟合，就是根据数据，计算获得数据里面的一些指标，比如均值，方差；下一步很多API都是需要这些参数来进行后续对数据的操作，比如下面要讲到的transform。 Transform，对于数据进行变形；常见的变形是标准化和归一化。标准化是需要均值和方差的，标准化本质上将数据进阅读全文

posted @ 2018-09-30 13:15 张叫兽的技术研究院阅读(1144) 评论(0) 推荐(0) 编辑

岭回归和Lasso回归以及norm1和norm2

摘要： norm代表的是距离，两个向量的距离；下图代表的就是p-norm，其实是对向量里面元素的一种运算；最简单的距离计算（规范）是欧式距离（Euclidean distance），两点间距离是如下来算的，属于L2-norm：另外一种就是出租车距离（也称之为曼哈顿距离）：这是一种1-norm： L1-n 阅读全文

posted @ 2018-09-19 22:44 张叫兽的技术研究院阅读(2745) 评论(0) 推荐(0) 编辑

如何画根据散列节点画一条二维曲线

摘要： Polynomial‘s Examples 一个二元线性数据学习的例子。初衷即使希望能够看到基于二次曲线的随机点，训练模型能够画出一条二次曲线。首先是对6元素的数组进行reshape，3行2列。通过Polynomial函数的fit_transform可以为其添加全“1”列，以及a*b, a*a, 阅读全文

posted @ 2018-09-09 19:45 张叫兽的技术研究院阅读(353) 评论(0) 推荐(0) 编辑

亿级用户百TB级数据的AIOps 技术实践之路

摘要：关于面临的挑战 "因为专业性强，我认为反而让交互方式变简单了，打个点餐的比方，软件1.0阶段是，我要吃鱼香肉丝，我要吃辣的或是素一点的，根据清晰的接口上菜。而软件2.0阶段就是，我今天想吃开心一点的，然后菜就上来了。学件的提出，说明 AIOps 给大家带来的已经不再是枯燥的接口，而是变成很友好的用户阅读全文

posted @ 2018-09-09 19:15 张叫兽的技术研究院阅读(462) 评论(0) 推荐(0) 编辑

Logstash的grok以及Ruby

摘要： logstash的grok插件的用途是提取字段，将非格式的内容进行格式化，匹配字段如下： client: 55.3.244.1 method: GET request: /index.html bytes: 15824 duration: 0.043 更加震撼的是logstash内置很多的正则表达阅读全文

posted @ 2018-09-09 18:47 张叫兽的技术研究院阅读(4655) 评论(0) 推荐(0) 编辑

学习曲线

摘要： Validation Set和Training Set，前者是用来验证的，后者是用来学的。其实通过代码可以理解一下这两个数据集合：通过for语句里面可以看到，y_train_predict其实是predict那个X_train的一个子集，作为y_train_predict则是对这个子集的一个预期阅读全文

posted @ 2018-09-05 12:24 张叫兽的技术研究院阅读(254) 评论(0) 推荐(0) 编辑

ElasticSearch（七）管理ES

摘要：发现，故障修复以及恢复在发现节点，主要是使用ES的zen模块来进行发现，发现的目的就是加入集群，zen的发现有两种模式分别是单播和组播，单播是指配置好了要发现的节点IP，组播则是指不配置具体IP，向局域网广撒网，寻找同名节点，并组成集群。为了避免在组成集群的时候导致"脑裂"情况，即因为网络通信原阅读全文

posted @ 2018-09-04 07:57 张叫兽的技术研究院阅读(1444) 评论(0) 推荐(0) 编辑

ElasticSearch（六）底层索引控制

摘要：相似度算法涉及到了ES的底层，首先讲一下ES的底层核心，相似度模型，ES的查询和传统的数据库查询最大的差别就在相似度查询（之前讲过，索引存储的最大差别就是讲非结构化数据转化为结构化），ES里面会给文档的相似度打分。那么这种打分的算法就是ES的查询的核心，默认的算法是TF/IDF，除了这个默认的算法之外还有很多其他的算法，罗列一下，当你发现现在的查询速度以及效率不满足需要的时候，可以考虑一下下面的... 阅读全文

posted @ 2018-09-01 11:46 张叫兽的技术研究院阅读(945) 评论(0) 推荐(0) 编辑

ElasticeSearch（五）分布式索引架构

摘要：关于分布式架构首先将ES默认每个索引是5个分片，这样做得目的是两个一个索引的时候速度更快（将数据写到小分片的尾部比写入大分片尾部更加快）；另外一个是当数据量达到一定程度之后，分片查询，在汇总（scater-gathter）这种模式更加简单一些。 ES的分片奠定了ES在分布式存储的地位，也意味着ES 阅读全文

posted @ 2018-09-01 10:35 张叫兽的技术研究院阅读(3501) 评论(0) 推荐(0) 编辑

下士闻道