03 2019 档案

敏捷开发SCM
摘要:敏捷的目标:自组织,提高交付质量和交付速度;敏捷中实现拥抱变化是通过迭代增量实现的;所谓的迭代是循环,循环一种机制和模式,增量则是价值的增加,迭代增量,就是通过每次工作流程的循环实现业务价值的提升;那么关于迭代,其实是两个核心部分,一个时间,在scrum中每个迭代都是称之为一个sprint,即使冲刺的意思,scurm本身是棒球的一个术语,就是"争球",我理解代表的是一场"比赛",每个sprint其... 阅读全文

posted @ 2019-03-31 23:06 张叫兽的技术研究院 阅读(369) 评论(0) 推荐(0) 编辑

Flink
摘要:1. Flink表接受是基于dataset、datastream的;首先需要注册一个dataset,然后通过sql去查询这个dataset,返回的即使基于dataset查询结果,这个查询结构就是Flink的表;除此之外,FLink支持很多外部的数据源,比如Csv文件等都可以映射到表操作; 2. Fl 阅读全文

posted @ 2019-03-29 22:12 张叫兽的技术研究院 阅读(126) 评论(0) 推荐(0) 编辑

如何爬取网页数据
摘要:https://selenium-python.readthedocs.io/navigating.html https://blog.csdn.net/chengxuyuanyonghu/article/details/79154468 关键是要明白webdriver是基于浏览器驱动的;所以在创建 阅读全文

posted @ 2019-03-26 13:44 张叫兽的技术研究院 阅读(296) 评论(0) 推荐(0) 编辑

如何研究算法
摘要:第一要义就是要在宏观上对于算法进行了解;然后再看代码,看代码过程中再回过头来看一下宏观算法 阅读全文

posted @ 2019-03-24 18:46 张叫兽的技术研究院 阅读(270) 评论(0) 推荐(0) 编辑

FP-Growth算法
摘要:FP-Growth算法的目标是发现模式,其特点就是高效,因为可以通过设置发生频次直接过滤掉一些低频次的元素;而且秉承了和Apriori的思想,对于低频次的元素,其父级和子级的组合都是低频的。 FP-Growth利用的树结构;在发现模式的过程就是一个不断构建树的过程。其核心组成是两部分,一个就是FPT 阅读全文

posted @ 2019-03-24 18:38 张叫兽的技术研究院 阅读(530) 评论(0) 推荐(0) 编辑

线性模型
摘要:线性模型最终训练出来的是w列向量;验证以及判断都是基于这个训练出来的w列向量进行的。所以,所谓的线性模型是指数据的分布大体是满足一次方程的;线性模型学习的结果就是把这个一次方程的w给获得,这样就可以得到一个模型了;未来只要向这个模型(一次方程)传入样本即可得到结果。模型是一个什么概念?总体来讲模型是 阅读全文

posted @ 2019-03-10 21:28 张叫兽的技术研究院 阅读(528) 评论(0) 推荐(0) 编辑

Python手记(二)
摘要:1.map函数 map函数用于将指定的数据成员都使用指定函数进行处理。 比如: 这两个函数分别将arr中成员转换为float类型,以及对于arr中成员求平方。 还可以通过lamba函数来进行指定匿名函数: 但是注意map函数在python2中返回的是List(原生数组),但是在python3中返回的 阅读全文

posted @ 2019-03-10 21:22 张叫兽的技术研究院 阅读(220) 评论(0) 推荐(0) 编辑

python的set处理二维数组转一维数组
摘要:for splitValue in set(dataset[:, featureIndex].tolist()): 首先set是一个无序,无重复的数据结构,所以很多时候使用它来进行去重;但是set接收的函数是原生array,这个怎么办?我现在有的numpy里面的matrix;于是我查了一下,直接使用 阅读全文

posted @ 2019-03-10 21:17 张叫兽的技术研究院 阅读(4154) 评论(0) 推荐(0) 编辑

python print format
摘要:python print format %o —— oct 八进制 %d —— dec 十进制 %x —— hex 十六进制 1 1 >>> print('%o' % 20) 2 2 24 3 3 >>> print('%d' % 20) 4 4 20 5 5 >>> print('%x' % 20 阅读全文

posted @ 2019-03-10 21:12 张叫兽的技术研究院 阅读(330) 评论(0) 推荐(0) 编辑

ElasticSearch的lowlevelApi和低级别API
摘要:之前开发使用的其实都是lowLevel的api,所谓lowlevelapi就是操作ES的json字符串要自己去写;所谓highlevel的api就是指将查询的json字符串给对象化,创建一个SearchSourceBuilder 对象,设定from,size等属性来实现;而且现在higlevel a 阅读全文

posted @ 2019-03-10 21:08 张叫兽的技术研究院 阅读(933) 评论(0) 推荐(0) 编辑

exactly-once和kafka
摘要:Exactly-Once的概念是指"恰好一次",简单讲就是同一个数据只会被处理一次,应用有机质保证不会重复处理同一条数据(如果数据因为因为网络业务异常被发送多次);Exactly-Onece实现了操作的等幂性,如果在kafka处理数据全流程保证历史/重新处理数据结果都是一致的。 Kafka处理数据的 阅读全文

posted @ 2019-03-10 21:02 张叫兽的技术研究院 阅读(947) 评论(0) 推荐(0) 编辑

关于回归树的创建和剪枝
摘要:之前对于树剪枝一直感到很神奇;最近参考介绍手工写了一下剪枝代码,才算理解到底什么是剪枝。 首先要明白回归树作为预测的模式(剪枝是针对回归树而言),其实是叶子节点进行预测;所以在使用回归树进行预测的时候,本质都是在通过每层(每个层代表一个属性)的值的大于和小于来作为分值,进行二叉树的遍历。最后预测值其 阅读全文

posted @ 2019-03-10 20:56 张叫兽的技术研究院 阅读(1440) 评论(0) 推荐(0) 编辑

Python神坑:sum和numpy.sum
摘要:同样的一段代码,在两个python文件里面执行的结果不一样,一个是按照列单位进行sum一个是所有元素进行sum; 搞了半天,最后想到了,是不是可能sum语义不同,python原生和numpy的两个?一查,果然sum分两种; 在第一个类文件里面(第二个类文件有一句: from numpy import 阅读全文

posted @ 2019-03-10 20:54 张叫兽的技术研究院 阅读(2645) 评论(0) 推荐(0) 编辑

Python问题汇总
摘要:1.dict is not callable tree是一个字典类型。 tree("left") -> tree["left"] 2.list indices must be integers or slices, not tuple dataset是原生的python数组,是list类型(pyth 阅读全文

posted @ 2019-03-10 20:52 张叫兽的技术研究院 阅读(1844) 评论(0) 推荐(0) 编辑

ES查询之刨根问底
摘要:昨天有一个需求,就是想要根据某个网关url做过滤,获取其下面所有的上下文nginx日志;如果直接"query":"https://XXX/YYY/ZZZ"发现有问题,啥也查不出来,后来仁杰指出来需要使用“”括起来,果然这样就变成了前后匹配的模糊查询了。但是继续,我发现如果我指定了字段"query": 阅读全文

posted @ 2019-03-03 15:02 张叫兽的技术研究院 阅读(460) 评论(0) 推荐(0) 编辑

安装ES
摘要:ES环境搭建 1.创建用户组2.目录授权3.安装jdk4.vi /etc/sysctl.confvm.map_maxcount=65535vm.swappiness=5 sysctl -p 生效5.修改配置文件5.1 node.master/node.client: master节点,node.ma 阅读全文

posted @ 2019-03-03 14:43 张叫兽的技术研究院 阅读(123) 评论(0) 推荐(0) 编辑

KNN手写实践:Python基于数据集整体计算以及排序
摘要:1. 距离计算,不要通过遍历每个样本来计算和指定样本距离,而是通过对于指定样本进行广播(复制)成为一个shape和全局一致后,再进行整体计算,这里的广播 / 复制采用的是tile函数来实现的: 2. numpy的排序函数argsort,这个函数可以默认按照冒泡排序进行排序;对于一维数组,正序排列正常 阅读全文

posted @ 2019-03-02 15:24 张叫兽的技术研究院 阅读(466) 评论(0) 推荐(0) 编辑

关于svm
摘要:svm的研究一下,越研究越发现深入。下面谈一些我个人一些拙见。 svm计算基础是逻辑回归(logistic regression),其实一切二元分类的鼻祖我觉得都是logistic regress。 公式如下: 那么当我们谋求一个超平面(在二维里面超"线")y = w.T * x + b来实现分类,其实就是g(w.T *x + b),注意这里有点反人类,在前者y是因变... 阅读全文

posted @ 2019-03-01 13:56 张叫兽的技术研究院 阅读(495) 评论(0) 推荐(0) 编辑

关于Adaboost算法
摘要:我花了将近一周的时间,才算搞懂了adaboost的原理。这根骨头终究还是被我啃下来了。 Adaboost是boosting系的解决方案,类似的是bagging系,bagging系是另外一个话题,还没有深入研究。Adaboost是boosting系非常流行的算法。但凡是介绍boosting的书籍无不介绍Adaboosting,也是因为其学习效果很好。 Adaboost首先要建立一个概念:... 阅读全文

posted @ 2019-03-01 13:53 张叫兽的技术研究院 阅读(469) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示