上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 70 下一页

2018年10月3日

Python的rand vs randn以及linspace

摘要: Numpy里面的randn是满足了整体分布的,normal distribution(正态分布);rand则是满足了Uniform Distribution(均匀分布); Linspace(start, end, numercount):start:开始数,end:结束数,numbercount:均分开始数和结束数。Endpoint,是一个布尔值,true代表范围是包含最后一个数(end,相当于数... 阅读全文

posted @ 2018-10-03 15:11 张叫兽的技术研究院 阅读(885) 评论(0) 推荐(0) 编辑

2018年9月30日

关于fit和transform

摘要: Fit是对于数据进行拟合,所谓拟合,就是根据数据,计算获得数据里面的一些指标,比如均值,方差;下一步很多API都是需要这些参数来进行后续对数据的操作,比如下面要讲到的transform。 Transform,对于数据进行变形;常见的变形是标准化和归一化。标准化是需要均值和方差的,标准化本质上将数据进 阅读全文

posted @ 2018-09-30 13:15 张叫兽的技术研究院 阅读(1144) 评论(0) 推荐(0) 编辑

2018年9月19日

岭回归和Lasso回归以及norm1和norm2

摘要: norm代表的是距离,两个向量的距离;下图代表的就是p-norm,其实是对向量里面元素的一种运算; 最简单的距离计算(规范)是欧式距离(Euclidean distance),两点间距离是如下来算的,属于L2-norm: 另外一种就是出租车距离(也称之为曼哈顿距离):这是一种1-norm: L1-n 阅读全文

posted @ 2018-09-19 22:44 张叫兽的技术研究院 阅读(2745) 评论(0) 推荐(0) 编辑

2018年9月9日

如何画根据散列节点画一条二维曲线

摘要: Polynomial‘s Examples 一个二元线性数据学习的例子。初衷即使希望能够看到基于二次曲线的随机点,训练模型能够画出一条二次曲线。 首先是对6元素的数组进行reshape,3行2列。 通过Polynomial函数的fit_transform可以为其添加全“1”列,以及a*b, a*a, 阅读全文

posted @ 2018-09-09 19:45 张叫兽的技术研究院 阅读(353) 评论(0) 推荐(0) 编辑

亿级用户百TB级数据的AIOps 技术实践之路

摘要: 关于面临的挑战 "因为专业性强,我认为反而让交互方式变简单了,打个点餐的比方,软件1.0阶段是,我要吃鱼香肉丝,我要吃辣的或是素一点的,根据清晰的接口上菜。而软件2.0阶段就是,我今天想吃开心一点的,然后菜就上来了。学件的提出,说明 AIOps 给大家带来的已经不再是枯燥的接口,而是变成很友好的用户 阅读全文

posted @ 2018-09-09 19:15 张叫兽的技术研究院 阅读(462) 评论(0) 推荐(0) 编辑

Logstash的grok以及Ruby

摘要: logstash的grok插件的用途是提取字段,将非格式的内容进行格式化, 匹配字段如下: client: 55.3.244.1 method: GET request: /index.html bytes: 15824 duration: 0.043 更加震撼的是logstash内置很多的正则表达 阅读全文

posted @ 2018-09-09 18:47 张叫兽的技术研究院 阅读(4655) 评论(0) 推荐(0) 编辑

2018年9月5日

学习曲线

摘要: Validation Set和Training Set,前者是用来验证的,后者是用来学的。 其实通过代码可以理解一下这两个数据集合: 通过for语句里面可以看到,y_train_predict其实是predict那个X_train的一个子集,作为y_train_predict则是对这个子集的一个预期 阅读全文

posted @ 2018-09-05 12:24 张叫兽的技术研究院 阅读(254) 评论(0) 推荐(0) 编辑

2018年9月4日

ElasticSearch(七)管理ES

摘要: 发现,故障修复以及恢复 在发现节点,主要是使用ES的zen模块来进行发现,发现的目的就是加入集群,zen的发现有两种模式分别是单播和组播,单播是指配置好了要发现的节点IP,组播则是指不配置具体IP,向局域网广撒网,寻找同名节点,并组成集群。 为了避免在组成集群的时候导致"脑裂"情况,即因为网络通信原 阅读全文

posted @ 2018-09-04 07:57 张叫兽的技术研究院 阅读(1444) 评论(0) 推荐(0) 编辑

2018年9月1日

ElasticSearch(六)底层索引控制

摘要: 相似度算法 涉及到了ES的底层,首先讲一下ES的底层核心,相似度模型,ES的查询和传统的数据库查询最大的差别就在相似度查询(之前讲过,索引存储的最大差别就是讲非结构化数据转化为结构化),ES里面会给文档的相似度打分。那么这种打分的算法就是ES的查询的核心,默认的算法是TF/IDF,除了这个默认的算法之外还有很多其他的算法,罗列一下,当你发现现在的查询速度以及效率不满足需要的时候,可以考虑一下下面的... 阅读全文

posted @ 2018-09-01 11:46 张叫兽的技术研究院 阅读(945) 评论(0) 推荐(0) 编辑

ElasticeSearch(五)分布式索引架构

摘要: 关于分布式架构 首先将ES默认每个索引是5个分片,这样做得目的是两个一个索引的时候速度更快(将数据写到小分片的尾部比写入大分片尾部更加快);另外一个是当数据量达到一定程度之后,分片查询,在汇总(scater-gathter)这种模式更加简单一些。 ES的分片奠定了ES在分布式存储的地位,也意味着ES 阅读全文

posted @ 2018-09-01 10:35 张叫兽的技术研究院 阅读(3501) 评论(0) 推荐(0) 编辑

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 70 下一页

导航