2019 年 3月随笔档案 - 张叫兽的技术研究院

敏捷开发SCM

摘要：敏捷的目标：自组织，提高交付质量和交付速度；敏捷中实现拥抱变化是通过迭代增量实现的；所谓的迭代是循环，循环一种机制和模式，增量则是价值的增加，迭代增量，就是通过每次工作流程的循环实现业务价值的提升；那么关于迭代，其实是两个核心部分，一个时间，在scrum中每个迭代都是称之为一个sprint，即使冲刺的意思，scurm本身是棒球的一个术语，就是"争球"，我理解代表的是一场"比赛"，每个sprint其... 阅读全文

posted @ 2019-03-31 23:06 张叫兽的技术研究院阅读(369) 评论(0) 推荐(0) 编辑

Flink

摘要：1. Flink表接受是基于dataset、datastream的；首先需要注册一个dataset，然后通过sql去查询这个dataset，返回的即使基于dataset查询结果，这个查询结构就是Flink的表；除此之外，FLink支持很多外部的数据源，比如Csv文件等都可以映射到表操作； 2. Fl 阅读全文

posted @ 2019-03-29 22:12 张叫兽的技术研究院阅读(126) 评论(0) 推荐(0) 编辑

如何爬取网页数据

摘要：https://selenium-python.readthedocs.io/navigating.html https://blog.csdn.net/chengxuyuanyonghu/article/details/79154468 关键是要明白webdriver是基于浏览器驱动的；所以在创建阅读全文

posted @ 2019-03-26 13:44 张叫兽的技术研究院阅读(296) 评论(0) 推荐(0) 编辑

如何研究算法

摘要：第一要义就是要在宏观上对于算法进行了解；然后再看代码，看代码过程中再回过头来看一下宏观算法阅读全文

posted @ 2019-03-24 18:46 张叫兽的技术研究院阅读(270) 评论(0) 推荐(0) 编辑

FP-Growth算法

摘要：FP-Growth算法的目标是发现模式，其特点就是高效，因为可以通过设置发生频次直接过滤掉一些低频次的元素；而且秉承了和Apriori的思想，对于低频次的元素，其父级和子级的组合都是低频的。 FP-Growth利用的树结构；在发现模式的过程就是一个不断构建树的过程。其核心组成是两部分，一个就是FPT 阅读全文

posted @ 2019-03-24 18:38 张叫兽的技术研究院阅读(530) 评论(0) 推荐(0) 编辑

线性模型

摘要：线性模型最终训练出来的是w列向量；验证以及判断都是基于这个训练出来的w列向量进行的。所以，所谓的线性模型是指数据的分布大体是满足一次方程的；线性模型学习的结果就是把这个一次方程的w给获得，这样就可以得到一个模型了；未来只要向这个模型（一次方程）传入样本即可得到结果。模型是一个什么概念？总体来讲模型是阅读全文

posted @ 2019-03-10 21:28 张叫兽的技术研究院阅读(528) 评论(0) 推荐(0) 编辑

Python手记（二）

摘要：1.map函数 map函数用于将指定的数据成员都使用指定函数进行处理。比如：这两个函数分别将arr中成员转换为float类型，以及对于arr中成员求平方。还可以通过lamba函数来进行指定匿名函数：但是注意map函数在python2中返回的是List（原生数组），但是在python3中返回的阅读全文

posted @ 2019-03-10 21:22 张叫兽的技术研究院阅读(220) 评论(0) 推荐(0) 编辑

python的set处理二维数组转一维数组

摘要：for splitValue in set(dataset[:, featureIndex].tolist()): 首先set是一个无序，无重复的数据结构，所以很多时候使用它来进行去重；但是set接收的函数是原生array，这个怎么办？我现在有的numpy里面的matrix；于是我查了一下，直接使用阅读全文

posted @ 2019-03-10 21:17 张叫兽的技术研究院阅读(4154) 评论(0) 推荐(0) 编辑

python print format

摘要：python print format %o —— oct 八进制 %d —— dec 十进制 %x —— hex 十六进制 1 1 >>> print('%o' % 20) 2 2 24 3 3 >>> print('%d' % 20) 4 4 20 5 5 >>> print('%x' % 20 阅读全文

posted @ 2019-03-10 21:12 张叫兽的技术研究院阅读(330) 评论(0) 推荐(0) 编辑

ElasticSearch的lowlevelApi和低级别API

摘要：之前开发使用的其实都是lowLevel的api，所谓lowlevelapi就是操作ES的json字符串要自己去写；所谓highlevel的api就是指将查询的json字符串给对象化，创建一个SearchSourceBuilder 对象，设定from，size等属性来实现；而且现在higlevel a 阅读全文

posted @ 2019-03-10 21:08 张叫兽的技术研究院阅读(933) 评论(0) 推荐(0) 编辑

exactly-once和kafka

摘要：Exactly-Once的概念是指"恰好一次"，简单讲就是同一个数据只会被处理一次，应用有机质保证不会重复处理同一条数据（如果数据因为因为网络业务异常被发送多次）；Exactly-Onece实现了操作的等幂性，如果在kafka处理数据全流程保证历史/重新处理数据结果都是一致的。 Kafka处理数据的阅读全文

posted @ 2019-03-10 21:02 张叫兽的技术研究院阅读(947) 评论(0) 推荐(0) 编辑

关于回归树的创建和剪枝

摘要：之前对于树剪枝一直感到很神奇；最近参考介绍手工写了一下剪枝代码，才算理解到底什么是剪枝。首先要明白回归树作为预测的模式（剪枝是针对回归树而言），其实是叶子节点进行预测；所以在使用回归树进行预测的时候，本质都是在通过每层（每个层代表一个属性）的值的大于和小于来作为分值，进行二叉树的遍历。最后预测值其阅读全文

posted @ 2019-03-10 20:56 张叫兽的技术研究院阅读(1440) 评论(0) 推荐(0) 编辑

Python神坑：sum和numpy.sum

摘要：同样的一段代码，在两个python文件里面执行的结果不一样，一个是按照列单位进行sum一个是所有元素进行sum；搞了半天，最后想到了，是不是可能sum语义不同，python原生和numpy的两个？一查，果然sum分两种；在第一个类文件里面（第二个类文件有一句: from numpy import 阅读全文

posted @ 2019-03-10 20:54 张叫兽的技术研究院阅读(2645) 评论(0) 推荐(0) 编辑

Python问题汇总

摘要：1.dict is not callable tree是一个字典类型。 tree("left") -> tree["left"] 2.list indices must be integers or slices, not tuple dataset是原生的python数组，是list类型（pyth 阅读全文

posted @ 2019-03-10 20:52 张叫兽的技术研究院阅读(1844) 评论(0) 推荐(0) 编辑

ES查询之刨根问底

摘要：昨天有一个需求，就是想要根据某个网关url做过滤，获取其下面所有的上下文nginx日志；如果直接"query":"https://XXX/YYY/ZZZ"发现有问题，啥也查不出来，后来仁杰指出来需要使用“”括起来，果然这样就变成了前后匹配的模糊查询了。但是继续，我发现如果我指定了字段"query": 阅读全文

posted @ 2019-03-03 15:02 张叫兽的技术研究院阅读(460) 评论(0) 推荐(0) 编辑

安装ES

摘要：ES环境搭建 1.创建用户组2.目录授权3.安装jdk4.vi /etc/sysctl.confvm.map_maxcount=65535vm.swappiness=5 sysctl -p 生效5.修改配置文件5.1 node.master/node.client： master节点，node.ma 阅读全文

posted @ 2019-03-03 14:43 张叫兽的技术研究院阅读(123) 评论(0) 推荐(0) 编辑

KNN手写实践：Python基于数据集整体计算以及排序

摘要：1. 距离计算，不要通过遍历每个样本来计算和指定样本距离，而是通过对于指定样本进行广播（复制）成为一个shape和全局一致后，再进行整体计算，这里的广播 / 复制采用的是tile函数来实现的： 2. numpy的排序函数argsort，这个函数可以默认按照冒泡排序进行排序；对于一维数组，正序排列正常阅读全文

posted @ 2019-03-02 15:24 张叫兽的技术研究院阅读(466) 评论(0) 推荐(0) 编辑

关于svm

摘要：svm的研究一下，越研究越发现深入。下面谈一些我个人一些拙见。 svm计算基础是逻辑回归（logistic regression），其实一切二元分类的鼻祖我觉得都是logistic regress。公式如下：那么当我们谋求一个超平面（在二维里面超"线"）y = w.T * x + b来实现分类，其实就是g（w.T *x + b），注意这里有点反人类，在前者y是因变... 阅读全文

posted @ 2019-03-01 13:56 张叫兽的技术研究院阅读(495) 评论(0) 推荐(0) 编辑

关于Adaboost算法

摘要：我花了将近一周的时间，才算搞懂了adaboost的原理。这根骨头终究还是被我啃下来了。 Adaboost是boosting系的解决方案，类似的是bagging系，bagging系是另外一个话题，还没有深入研究。Adaboost是boosting系非常流行的算法。但凡是介绍boosting的书籍无不介绍Adaboosting，也是因为其学习效果很好。 Adaboost首先要建立一个概念：... 阅读全文

posted @ 2019-03-01 13:53 张叫兽的技术研究院阅读(469) 评论(0) 推荐(0) 编辑

下士闻道

03 2019 档案

敏捷开发SCM

Flink

如何爬取网页数据

如何研究算法

FP-Growth算法

线性模型

Python手记（二）

python的set处理二维数组转一维数组

python print format

ElasticSearch的lowlevelApi和低级别API

exactly-once和kafka

关于回归树的创建和剪枝

Python神坑：sum和numpy.sum

Python问题汇总

ES查询之刨根问底

安装ES

KNN手写实践：Python基于数据集整体计算以及排序

关于svm

关于Adaboost算法

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论