随笔档案「2017年7月」 - bonelee

numpy的scale就是 x-mean/std

摘要：>>> from sklearn import preprocessing >>> import numpy as np >>> a=np.array([[1.0,2.0,3.0], [4.0,5.0,9.0], [20,40.0, 80.0]]) >>> scale(a, axis=0) array([[-0.87929684, -0.79227978, -0.79115821], ... 阅读全文

posted @ 2017-07-29 17:17 bonelee 阅读(2483) 评论(0) 推荐(0)

DNS查询报文实例

摘要：2.2 DNS查询报文实例以www.baidu.com为例，用Wireshark俘获分组，结合2.1的理论内容，很容易看明白的，DNS请求报文如下：图7 DNS请求报文示例 2.3 DNS回答报文实例 DNS回答报文示例 2.2 DNS查询报文实例以www.baidu.com为例，用Wires 阅读全文

posted @ 2017-07-29 15:32 bonelee 阅读(1815) 评论(0) 推荐(0)

十分钟搞定pandas

摘要：见原文链接：http://www.cnblogs.com/chaosimple/p/4153083.html 本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上阅读全文

posted @ 2017-07-29 11:09 bonelee 阅读(318) 评论(0) 推荐(0)

numpy中的ndarray方法和属性

摘要：原文地址 NumPy数组的维数称为秩（rank），一维数组的秩为1，二维数组的秩为2，以此类推。在NumPy中，每一个线性的数组称为是一个轴（axes），秩其实是描述轴的数量。比如说，二维数组相当于是一个一维数组，而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是NumPy中的轴（axe 阅读全文

posted @ 2017-07-29 10:44 bonelee 阅读(67645) 评论(1) 推荐(2)

NumPy和Pandas常用库

摘要：NumPy和Pandas常用库 NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包。部分功能如下： ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工阅读全文

posted @ 2017-07-29 10:43 bonelee 阅读(4306) 评论(0) 推荐(1)

机器学习 LR中的参数迭代公式推导——极大似然和梯度下降

摘要：Logistic本质上是一个基于条件概率的判别模型(DiscriminativeModel)。函数图像为：通过sigma函数计算出最终结果，以0.5为分界线，最终结果大于0.5则属于正类(类别值为1)，反之属于负类(类别值为0)。如果将上面的函数扩展到多维空间，并且加上参数，则函数变成：接下阅读全文

posted @ 2017-07-29 09:14 bonelee 阅读(16072) 评论(1) 推荐(3)

python fuzzy c-means demo

摘要：摘自：http://pythonhosted.org/scikit-fuzzy/auto_examples/plot_cmeans.html#example-plot-cmeans-py，加入了自己的理解！预测：经过测试，是可以处理三维数据聚类的：结果为：阅读全文

posted @ 2017-07-28 17:00 bonelee 阅读(4594) 评论(1) 推荐(0)

python matplot 绘图

摘要：import numpy as np import matplotlib.pyplot as plt plt.figure(1) # 创建图表1 plt.figure(2) # 创建图表2 ax1 = plt.subplot(211) # 在图表2中创建子图1 ax2 = plt.subplot(212) # 在图表2中创建子图2 x = np.linspace(0, 3, 100) for i... 阅读全文

posted @ 2017-07-28 16:44 bonelee 阅读(627) 评论(0) 推荐(0)

yarn架构——本质上是在做解耦将资源分配和应用程序状态监控两个功能职责分离为RM和AM

摘要：Hadoop YARN架构解读原Mapreduce架构原理架构图如下：图 1.Hadoop 原 MapReduce 架构原 MapReduce 程序的流程：首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker需要阅读全文

posted @ 2017-07-27 20:29 bonelee 阅读(706) 评论(0) 推荐(0)

HDFS 文件格式——SequenceFile RCFile

摘要： HDFS块内行存储的例子 HDFS块内列存储的例子 HDFS块内RCFile方式存储的例子阅读全文

posted @ 2017-07-27 12:13 bonelee 阅读(3774) 评论(0) 推荐(0)

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

摘要：摘自：http://blog.fens.me/mahout-recommendation-api/ 测试程序：RecommenderTest.java 测试数据集：item.csv 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest. 阅读全文

posted @ 2017-07-27 10:04 bonelee 阅读(257) 评论(1) 推荐(0)

模型树——就是回归树的分段常数预测修改为线性回归对于非线性回归有较好的预测效果

摘要：说完了树回归，再简单的提下模型树，因为树回归每个节点是一些特征和特征值，选取的原则是根据特征方差最小。如果把叶子节点换成分段线性函数，那么就变成了模型树，如（图六）所示：（图六）（图六）中明显是两个直线组成，以X坐标（0.0-0.3）和（0.3-1.0）分成的两个线段。如果我们用两个叶子节点保存阅读全文

posted @ 2017-07-26 20:30 bonelee 阅读(1707) 评论(0) 推荐(0)

python 从bulkblacklist信誉查询网站提交查询

摘要：import urllib import urllib2 #import webbrowser import re import socket def is_domain_in_black_list(domain, ip): try_time = 3 url = "http://www.bulkblacklist.com/" for i in rang... 阅读全文

posted @ 2017-07-26 10:55 bonelee 阅读(419) 评论(0) 推荐(0)

Linux与JVM的内存关系分析

摘要：Linux与JVM的内存关系分析 Linux与JVM的内存关系分析原文出处：美团技术团队引言在一些物理内存为8g的服务器上，主要运行一个Java服务，系统内存分配如下：Java服务的JVM堆大小设置为6g，一个监控进程占用大约600m，Linux自身使用大约800m。从表面上，物理内存应该是阅读全文

posted @ 2017-07-25 17:33 bonelee 阅读(2479) 评论(2) 推荐(0)

malloc和new出来的地址都是虚拟地址你就说内存管理单元怎么可能让你直接操作硬件内存地址！

摘要：malloc的实现与物理内存自然是无关的，内核为每个进程维护一张页表，页表存储进程空间内每页的虚拟地址，页表项中有的虚拟内存页对应着某个物理内存页面，也有的虚拟内存页没有实际的物理页面对应。无论malloc通过sbrk还是mmap实现，分配到的内存只是虚拟内存，而且只是虚拟内存的页号，代表这块空间进阅读全文

posted @ 2017-07-25 17:27 bonelee 阅读(3108) 评论(0) 推荐(0)

elasticsearch源码分析之search模块(server端)

摘要：elasticsearch源码分析之search模块(server端) 继续接着上一篇的来说啊，当client端将search的请求发送到某一个node之后，剩下的事情就是server端来处理了，具体包括哪些步骤呢？过程一、首先我们来看看接收地方其实就是在org.elasticsearch.ac 阅读全文

posted @ 2017-07-25 11:17 bonelee 阅读(5318) 评论(0) 推荐(0)

elasticsearch源码分析之search模块(client端)

摘要：elasticsearch源码分析之search模块(client端) 注意，我这里所说的都是通过rest api来做的搜索，所以对于接收到请求的节点，我姑且将之称之为client端，其主要的功能我们可以简单地概括为将的数据请求发送到node，然后在对返回的结果做处理并返回给调用方，话虽如此，但是过阅读全文

posted @ 2017-07-25 11:00 bonelee 阅读(2498) 评论(0) 推荐(0)

Fuzzy C Means 算法及其 Python 实现——写得很清楚，见原文

摘要：Fuzzy C Means 算法及其 Python 实现转自：http://note4code.com/2015/04/14/fuzzy-c-means-%E7%AE%97%E6%B3%95%E5%8F%8A%E5%85%B6-python-%E5%AE%9E%E7%8E%B0/ 1. 算法向算阅读全文

posted @ 2017-07-24 16:46 bonelee 阅读(4981) 评论(1) 推荐(0)

spark Bisecting k-means（二分K均值算法）

摘要：Bisecting k-means（二分K均值算法）二分k均值（bisecting k-means）是一种层次聚类方法，算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目阅读全文

posted @ 2017-07-24 16:06 bonelee 阅读(2667) 评论(0) 推荐(0)

python spark kmeans demo

摘要：官方的demo 带归一化的例子：参考：https://stackoverflow.com/questions/31447141/spark-mllib-kmeans-from-dataframe-and-back-again Create column from RDD It's very eas 阅读全文

posted @ 2017-07-24 15:20 bonelee 阅读(2939) 评论(0) 推荐(0)

百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类

摘要：2017年7月4日，百度开源了一款主题模型项目，名曰：Familia。 InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访，在本文中，他将为我们解析Familia项目的技术细节。什么是Familia Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业阅读全文

posted @ 2017-07-24 11:13 bonelee 阅读(3012) 评论(0) 推荐(0)

谷歌开源可视化工具Facets，将用于人+AI协作项目研究——无非就是一个用于特征工程探索的绘图工具集，pandas可以做的

摘要：见：http://www.infoq.com/cn/news/2017/07/goole-sight-facets-ai https://github.com/PAIR-code/facets/blob/master/facets_dive/README.md Introduction The fa 阅读全文

posted @ 2017-07-24 10:57 bonelee 阅读(672) 评论(0) 推荐(0)

机器学习案例特征组合——高帅富冷启动——从微博等其他渠道搜集数据进行机器学习用户年龄——线性分段处理

摘要：摘自：http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems 我们会从一个真实的案例出发，虽然我们做了很多的推荐系统的案例，但毕竟不能把客户的数据给大家看，所以我们用了一阅读全文

posted @ 2017-07-24 10:01 bonelee 阅读(1422) 评论(0) 推荐(0)

pyspark MLlib踩坑之model predict+rdd map zip，zip使用尤其注意啊啊啊！

摘要：Updated:use model broadcast, mappartition+flatmap,see: see: https://gist.github.com/lucidfrontier45/591be3eb78557d1844ca 一开始是因为没法直接在pyspark里使用map 来做mo 阅读全文

posted @ 2017-07-21 16:12 bonelee 阅读(3061) 评论(5) 推荐(0)

高斯混合模型Gaussian Mixture Model (GMM)——通过增加 Model 的个数，我们可以任意地逼近任何连续的概率密分布

摘要：从几何上讲，单高斯分布模型在二维空间应该近似于椭圆，在三维空间上近似于椭球。遗憾的是在很多分类问题中，属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。——可以认为是基本假设！高斯混合模型Gaussian Mixture Model (GMM) 摘自：http://www.i 阅读全文

posted @ 2017-07-21 09:40 bonelee 阅读(11183) 评论(0) 推荐(0)

随机森林算法demo python spark

摘要：关键参数最重要的，常常需要调试以提高算法效果的有两个参数：numTrees，maxDepth。 numTrees（决策树的个数）：增加决策树的个数会降低预测结果的方差，这样在测试时会有更高的accuracy。训练时间大致与numTrees呈线性增长关系。 maxDepth：是指森林中每一棵决策树最阅读全文

posted @ 2017-07-19 09:46 bonelee 阅读(2279) 评论(0) 推荐(0)

spark 随机森林算法案例实战

摘要：随机森林算法由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机过程，行方向上构建决策树时采用放回抽样（bootstraping）得到训练数据，列方向上采用无放回随机抽样得到特征子集，并据此得到其最优切分点，这便是随机森林算法的基本原理。图阅读全文

posted @ 2017-07-19 09:18 bonelee 阅读(9058) 评论(0) 推荐(0)

AngularJS 下拉列表demo

摘要：你选择了：{{selectedName}} 点我！该实例演示了 ng-options 指令的使用。阅读全文

posted @ 2017-07-18 19:10 bonelee 阅读(293) 评论(0) 推荐(0)

机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster

摘要：下面一文章就总结几点关键： 1、要学会观察，尤其是输入数据的特征提取时，看各输入数据和输出的关系，用绘图看！ 2、训练后，看测试数据和训练数据误差，确定是否过拟合还是欠拟合； 3、欠拟合的话，说明模型不准确或者特征提取不够，对于特征提取不够问题，可以根据模型的反馈来看其和数据的相关性，如果相关系数是阅读全文

posted @ 2017-07-18 09:00 bonelee 阅读(1410) 评论(1) 推荐(0)

sklearn中的数据预处理----good!! 标准化归一化在何时使用

摘要：RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimization algorithms, such as gradient descent, that a 阅读全文

posted @ 2017-07-17 20:15 bonelee 阅读(3245) 评论(1) 推荐(0)

kaggle 中使用ipython

摘要：可以直接绘图： https://www.kaggle.com/bonelee/a-journey-through-titanic/editnb 阅读全文

posted @ 2017-07-17 18:59 bonelee 阅读(303) 评论(0) 推荐(0)

机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当，或者模型中加入惩罚项

摘要：机器学习中的数据不平衡问题机器学习中的数据不平衡问题摘自：http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题，其中的阳性数据比阴性数据少很多，这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些阅读全文

posted @ 2017-07-14 14:29 bonelee 阅读(2102) 评论(1) 推荐(0)

机器学习数据量不足问题----1 做好特征工程 2 不要用太多的特征 3 做好交叉验证使用线性svm

摘要：来自：https://www.zhihu.com/question/35649122 其实这里所说的数据量不足，可以换一种方式去理解：在维度高的情况下，数据相对少。举一个特例，比如只有一维，和1万个数据，那么这种情况下，我们可以认为数据量其实是足够的，因为数据密度相对来说很高。如果数据的维度有100 阅读全文

posted @ 2017-07-14 14:25 bonelee 阅读(3749) 评论(0) 推荐(0)

机器学习算法选择

摘要：阅读全文

posted @ 2017-07-14 14:08 bonelee 阅读(192) 评论(0) 推荐(0)

angular学习笔记(三十)-指令(4)-transclude

摘要：from: http://www.cnblogs.com/liulangmao/p/3951865.html 本篇主要介绍指令的transclude属性: transclude的值有三个: 1.transclude:false(默认值) 不启用transclude功能. 2.transclude:t 阅读全文

posted @ 2017-07-14 11:07 bonelee 阅读(249) 评论(0) 推荐(0)

摘要提取算法——本质上就是pagerank，选择rank最高的句子作为摘要，如果结合word2vec应该有非常好的效果

摘要：最近需要做一些文本摘要的东西，选取了TextRank（论文参见《TextRank: Bringing Order into Texts》）作为对比方案，该方案可以很方便的使用Python相关库进行实现。下面介绍如何利用Python实现一个简单的文本摘要工具。 Demo 【前期准备】：【背景知识】阅读全文

posted @ 2017-07-14 10:09 bonelee 阅读(1184) 评论(0) 推荐(0)

spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby

摘要：example.groupByKey().mapValues(list) 阅读全文

posted @ 2017-07-12 16:28 bonelee 阅读(9320) 评论(0) 推荐(1)

python spark 通过key来统计不同values个数

摘要：distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect 阅读全文

posted @ 2017-07-12 14:07 bonelee 阅读(2861) 评论(0) 推荐(0)

spark rdd median 中位数求解

摘要：lookup(key) Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching 阅读全文

posted @ 2017-07-12 10:47 bonelee 阅读(3207) 评论(0) 推荐(0)

python spark 求解最大最小平均

摘要：rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); Now we’ll calculate the mean of o 阅读全文

posted @ 2017-07-12 10:15 bonelee 阅读(597) 评论(0) 推荐(0)

python spark 求解最大最小平均中位数

摘要：上面是粗暴的做法简单的做法：阅读全文

posted @ 2017-07-12 09:50 bonelee 阅读(1290) 评论(0) 推荐(0)

我的spark python 决策树实例

摘要：predictionsAndLabels = predictions.zip(testData.map(lambda lp: lp.label)) 阅读全文

posted @ 2017-07-11 16:44 bonelee 阅读(2260) 评论(0) 推荐(0)

python spark 随机森林入门demo

摘要：class pyspark.mllib.tree.RandomForest[source] Learning algorithm for a random forest model for classification or regression. New in version 1.2.0. New 阅读全文

posted @ 2017-07-11 14:48 bonelee 阅读(1635) 评论(0) 推荐(0)

python spark 决策树入门demo

摘要：Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. from pyspark.mllib.tree import DecisionTree, Deci 阅读全文

posted @ 2017-07-11 14:47 bonelee 阅读(1475) 评论(0) 推荐(0)

spark 决策树分类算法demo

摘要：分类（Classification）下面的例子说明了怎样导入LIBSVM 数据文件，解析成RDD[LabeledPoint]，然后使用决策树进行分类。GINI不纯度作为不纯度衡量标准并且树的最大深度设置为5。最后计算了测试错误率从而评估算法的准确性。以下代码展示了如何载入一个LIBSVM数据文件阅读全文

posted @ 2017-07-11 11:43 bonelee 阅读(2993) 评论(0) 推荐(0)

word2vec (一) 简介与训练过程概要

摘要：摘自：http://blog.csdn.net/thriving_fcl/article/details/51404655 词的向量化与word2vec简介 word2vec最初是Tomas Mikolov发表的一篇文章[1]，同时开源了相应的代码，作用是将所有词语投影到K维的向量空间，每个词语都可阅读全文

posted @ 2017-07-10 10:34 bonelee 阅读(1591) 评论(0) 推荐(0)

赴美生子入境经验汇总

摘要：遇到海关官员：白人中年女性问：你们来美国干什么？（这个问题是必问的问题）答：生宝宝顺便购物问：什么？生小孩？答：是的。（一定要微笑哦）问：你们带了多少现金？答：一共3万美金，还有visa卡，放心，我肯定会自费生孩子，不会占用美国政府的福利的。（一定要强调，这点很重要）问：你们打算住在哪里？答：我们定阅读全文

posted @ 2017-07-08 23:44 bonelee 阅读(2166) 评论(0) 推荐(0)

基于矩阵分解的推荐算法，简单入门

摘要：摘自：http://www.cnblogs.com/kobedeshow/p/3651833.html 本文将要讨论基于矩阵分解的推荐算法，这一类型的算法通常会有很高的预测精度，也活跃于各大推荐系统竞赛上面，前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型，最后各种ensem 阅读全文

posted @ 2017-07-06 14:23 bonelee 阅读(11187) 评论(3) 推荐(1)

Spark MLlib介绍

摘要：Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势，有以下几点原因：（1）机器学习算法一般都有很多个步骤迭代计算的过程，机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用Hadoop的MapReduce计算框架，每次计算都要读/写磁盘以及任阅读全文

posted @ 2017-07-06 12:11 bonelee 阅读(9250) 评论(0) 推荐(0)

Spark中常用的算法

摘要：Spark中常用的算法： 3.2.1 分类算法分类算法属于监督式学习，使用类标签已知的样本建立一个分类函数或分类模型，应用分类模型，能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务，目前在商业上应用最多，常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。MLli 阅读全文

posted @ 2017-07-06 12:11 bonelee 阅读(13018) 评论(0) 推荐(0)

为什么一些机器学习模型需要对数据进行归一化？——1）归一化后加快了梯度下降求最优解的速度；2）归一化有可能提高精度

摘要：为什么一些机器学习模型需要对数据进行归一化？ http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用，如排序（参见：排序学习实践）、推荐、反作弊、定位（参见：基于朴素贝叶斯的定位算法）等。一般做机器学习应用的时候大部分时间是花费在特征阅读全文

posted @ 2017-07-06 09:46 bonelee 阅读(6082) 评论(0) 推荐(1)

聚类（三）FUZZY C-MEANS 模糊c-均值聚类算法——本质和逻辑回归类似啊

摘要：摘自：http://ramsey16.net/%E8%81%9A%E7%B1%BB%EF%BC%88%E4%B8%89%EF%BC%89fuzzy-c-means/ 经典k-均值聚类算法的每一步迭代中，每一个样本点都被认为是完全属于某一类别。我们可以放松这个条件，假定每个样本xjxj模糊“隶属”于某阅读全文

posted @ 2017-07-05 15:20 bonelee 阅读(3128) 评论(0) 推荐(0)

深入理解groupByKey、reduceByKey区别——本质就是一个local machine的reduce操作

摘要：下面来看看groupByKey和reduceByKey的区别：虽然两个函数都能得出正确的结果，但reduceByKey函数更适合使用在大数据集上。这是因为Spark知道它可以在每个分区移动数据之前将输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里发生了什么。在数据阅读全文

posted @ 2017-07-03 15:34 bonelee 阅读(15282) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

07 2017 档案

公告