07 2017 档案

摘要:>>> from sklearn import preprocessing >>> import numpy as np >>> a=np.array([[1.0,2.0,3.0], [4.0,5.0,9.0], [20,40.0, 80.0]]) >>> scale(a, axis=0) array([[-0.87929684, -0.79227978, -0.79115821], ... 阅读全文
posted @ 2017-07-29 17:17 bonelee 阅读(2460) 评论(0) 推荐(0) 编辑
摘要:2.2 DNS查询报文实例 以www.baidu.com为例,用Wireshark俘获分组,结合2.1的理论内容,很容易看明白的,DNS请求报文如下: 图7 DNS请求报文示例 2.3 DNS回答报文实例 DNS回答报文示例 2.2 DNS查询报文实例 以www.baidu.com为例,用Wires 阅读全文
posted @ 2017-07-29 15:32 bonelee 阅读(1780) 评论(0) 推荐(0) 编辑
摘要:见原文链接:http://www.cnblogs.com/chaosimple/p/4153083.html 本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上 阅读全文
posted @ 2017-07-29 11:09 bonelee 阅读(305) 评论(0) 推荐(0) 编辑
摘要:原文地址 NumPy数组的维数称为秩(rank),一维数组的秩为1,二维数组的秩为2,以此类推。在NumPy中,每一个线性的数组称为是一个轴(axes),秩其实是描述轴的数量。比如说,二维数组相当于是一个一维数组,而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是NumPy中的轴(axe 阅读全文
posted @ 2017-07-29 10:44 bonelee 阅读(67559) 评论(1) 推荐(2) 编辑
摘要:NumPy和Pandas常用库 NumPy和Pandas常用库 1.NumPy NumPy是高性能科学计算和数据分析的基础包。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工 阅读全文
posted @ 2017-07-29 10:43 bonelee 阅读(4265) 评论(0) 推荐(1) 编辑
摘要:Logistic本质上是一个基于条件概率的判别模型(DiscriminativeModel)。 函数图像为: 通过sigma函数计算出最终结果,以0.5为分界线,最终结果大于0.5则属于正类(类别值为1),反之属于负类(类别值为0)。 如果将上面的函数扩展到多维空间,并且加上参数,则函数变成: 接下 阅读全文
posted @ 2017-07-29 09:14 bonelee 阅读(15984) 评论(1) 推荐(3) 编辑
摘要:摘自:http://pythonhosted.org/scikit-fuzzy/auto_examples/plot_cmeans.html#example-plot-cmeans-py,加入了自己的理解! 预测: 经过测试,是可以处理三维数据聚类的: 结果为: 阅读全文
posted @ 2017-07-28 17:00 bonelee 阅读(4560) 评论(1) 推荐(0) 编辑
摘要:import numpy as np import matplotlib.pyplot as plt plt.figure(1) # 创建图表1 plt.figure(2) # 创建图表2 ax1 = plt.subplot(211) # 在图表2中创建子图1 ax2 = plt.subplot(212) # 在图表2中创建子图2 x = np.linspace(0, 3, 100) for i... 阅读全文
posted @ 2017-07-28 16:44 bonelee 阅读(611) 评论(0) 推荐(0) 编辑
摘要:Hadoop YARN架构解读 原Mapreduce架构 原理架构图如下: 图 1.Hadoop 原 MapReduce 架构 原 MapReduce 程序的流程:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker需要 阅读全文
posted @ 2017-07-27 20:29 bonelee 阅读(682) 评论(0) 推荐(0) 编辑
摘要: HDFS块内行存储的例子  HDFS块内列存储的例子  HDFS块内RCFile方式存储的例子 阅读全文
posted @ 2017-07-27 12:13 bonelee 阅读(3754) 评论(0) 推荐(0) 编辑
摘要:摘自:http://blog.fens.me/mahout-recommendation-api/ 测试程序:RecommenderTest.java 测试数据集:item.csv 测试程序:org.conan.mymahout.recommendation.job.RecommenderTest. 阅读全文
posted @ 2017-07-27 10:04 bonelee 阅读(237) 评论(1) 推荐(0) 编辑
摘要:说完了树回归,再简单的提下模型树,因为树回归每个节点是一些特征和特征值,选取的原则是根据特征方差最小。如果把叶子节点换成分段线性函数,那么就变成了模型树,如(图六)所示: (图六) (图六)中明显是两个直线组成,以X坐标(0.0-0.3)和(0.3-1.0)分成的两个线段。如果我们用两个叶子节点保存 阅读全文
posted @ 2017-07-26 20:30 bonelee 阅读(1676) 评论(0) 推荐(0) 编辑
摘要:import urllib import urllib2 #import webbrowser import re import socket def is_domain_in_black_list(domain, ip): try_time = 3 url = "http://www.bulkblacklist.com/" for i in rang... 阅读全文
posted @ 2017-07-26 10:55 bonelee 阅读(410) 评论(0) 推荐(0) 编辑
摘要:Linux与JVM的内存关系分析 Linux与JVM的内存关系分析 原文出处: 美团技术团队 引言 在一些物理内存为8g的服务器上,主要运行一个Java服务,系统内存分配如下:Java服务的JVM堆大小设置为6g,一个监控进程占用大约600m,Linux自身使用大约800m。从表面上,物理内存应该是 阅读全文
posted @ 2017-07-25 17:33 bonelee 阅读(2456) 评论(2) 推荐(0) 编辑
摘要:malloc的实现与物理内存自然是无关的,内核为每个进程维护一张页表,页表存储进程空间内每页的虚拟地址,页表项中有的虚拟内存页对应着某个物理内存页面,也有的虚拟内存页没有实际的物理页面对应。无论malloc通过sbrk还是mmap实现,分配到的内存只是虚拟内存,而且只是虚拟内存的页号,代表这块空间进 阅读全文
posted @ 2017-07-25 17:27 bonelee 阅读(3067) 评论(0) 推荐(0) 编辑
摘要:elasticsearch源码分析之search模块(server端) 继续接着上一篇的来说啊,当client端将search的请求发送到某一个node之后,剩下的事情就是server端来处理了,具体包括哪些步骤呢? 过程 一、首先我们来看看接收地方其实就是在org.elasticsearch.ac 阅读全文
posted @ 2017-07-25 11:17 bonelee 阅读(5279) 评论(0) 推荐(0) 编辑
摘要:elasticsearch源码分析之search模块(client端) 注意,我这里所说的都是通过rest api来做的搜索,所以对于接收到请求的节点,我姑且将之称之为client端,其主要的功能我们可以简单地概括为将的数据请求发送到node,然后在对返回的结果做处理并返回给调用方,话虽如此,但是过 阅读全文
posted @ 2017-07-25 11:00 bonelee 阅读(2460) 评论(0) 推荐(0) 编辑
摘要:Fuzzy C Means 算法及其 Python 实现 转自:http://note4code.com/2015/04/14/fuzzy-c-means-%E7%AE%97%E6%B3%95%E5%8F%8A%E5%85%B6-python-%E5%AE%9E%E7%8E%B0/ 1. 算法向 算 阅读全文
posted @ 2017-07-24 16:46 bonelee 阅读(4948) 评论(1) 推荐(0) 编辑
摘要:Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二。之后选择能最大程度降低聚类代价函数(也就是误差平方和)的簇划分为两个簇。以此进行下去,直到簇的数目等于用户给定的数目 阅读全文
posted @ 2017-07-24 16:06 bonelee 阅读(2631) 评论(0) 推荐(0) 编辑
摘要:官方的demo 带归一化的例子: 参考:https://stackoverflow.com/questions/31447141/spark-mllib-kmeans-from-dataframe-and-back-again Create column from RDD It's very eas 阅读全文
posted @ 2017-07-24 15:20 bonelee 阅读(2908) 评论(0) 推荐(0) 编辑
摘要:2017年7月4日,百度开源了一款主题模型项目,名曰:Familia。 InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节。 什么是Familia Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业 阅读全文
posted @ 2017-07-24 11:13 bonelee 阅读(2982) 评论(0) 推荐(0) 编辑
摘要:见:http://www.infoq.com/cn/news/2017/07/goole-sight-facets-ai https://github.com/PAIR-code/facets/blob/master/facets_dive/README.md Introduction The fa 阅读全文
posted @ 2017-07-24 10:57 bonelee 阅读(650) 评论(0) 推荐(0) 编辑
摘要:摘自:http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems 我们会从一个真实的案例出发,虽然我们做了很多的推荐系统的案例,但毕竟不能把客户的数据给大家看,所以我们用了一 阅读全文
posted @ 2017-07-24 10:01 bonelee 阅读(1379) 评论(0) 推荐(0) 编辑
摘要:Updated:use model broadcast, mappartition+flatmap,see: see: https://gist.github.com/lucidfrontier45/591be3eb78557d1844ca 一开始是因为没法直接在pyspark里使用map 来做mo 阅读全文
posted @ 2017-07-21 16:12 bonelee 阅读(3044) 评论(5) 推荐(0) 编辑
摘要:从几何上讲,单高斯分布模型在二维空间应该近似于椭圆,在三维空间上近似于椭球。遗憾的是在很多分类问题中,属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。——可以认为是基本假设! 高斯混合模型Gaussian Mixture Model (GMM) 摘自:http://www.i 阅读全文
posted @ 2017-07-21 09:40 bonelee 阅读(11077) 评论(0) 推荐(0) 编辑
摘要:关键参数 最重要的,常常需要调试以提高算法效果的有两个参数:numTrees,maxDepth。 numTrees(决策树的个数):增加决策树的个数会降低预测结果的方差,这样在测试时会有更高的accuracy。训练时间大致与numTrees呈线性增长关系。 maxDepth:是指森林中每一棵决策树最 阅读全文
posted @ 2017-07-19 09:46 bonelee 阅读(2230) 评论(0) 推荐(0) 编辑
摘要:随机森林算法 由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数据,列方向上采用无放回随机抽样得到特征子集,并据此得到其最优切分点,这便是随机森林算法的基本原理。图 阅读全文
posted @ 2017-07-19 09:18 bonelee 阅读(8952) 评论(0) 推荐(0) 编辑
摘要:你选择了:{{selectedName}} 点我! 该实例演示了 ng-options 指令的使用。 阅读全文
posted @ 2017-07-18 19:10 bonelee 阅读(285) 评论(0) 推荐(0) 编辑
摘要:下面一文章就总结几点关键: 1、要学会观察,尤其是输入数据的特征提取时,看各输入数据和输出的关系,用绘图看! 2、训练后,看测试数据和训练数据误差,确定是否过拟合还是欠拟合; 3、欠拟合的话,说明模型不准确或者特征提取不够,对于特征提取不够问题,可以根据模型的反馈来看其和数据的相关性,如果相关系数是 阅读全文
posted @ 2017-07-18 09:00 bonelee 阅读(1353) 评论(1) 推荐(0) 编辑
摘要:RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimization algorithms, such as gradient descent, that a 阅读全文
posted @ 2017-07-17 20:15 bonelee 阅读(3212) 评论(1) 推荐(0) 编辑
摘要:可以直接绘图: https://www.kaggle.com/bonelee/a-journey-through-titanic/editnb 阅读全文
posted @ 2017-07-17 18:59 bonelee 阅读(287) 评论(0) 推荐(0) 编辑
摘要:机器学习中的数据不平衡问题 机器学习中的数据不平衡问题 摘自:http://wap.sciencenet.cn/blogview.aspx?id=377102 最近碰到一个问题,其中的阳性数据比阴性数据少很多,这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些 阅读全文
posted @ 2017-07-14 14:29 bonelee 阅读(1998) 评论(1) 推荐(0) 编辑
摘要:来自:https://www.zhihu.com/question/35649122 其实这里所说的数据量不足,可以换一种方式去理解:在维度高的情况下,数据相对少。举一个特例,比如只有一维,和1万个数据,那么这种情况下,我们可以认为数据量其实是足够的,因为数据密度相对来说很高。如果数据的维度有100 阅读全文
posted @ 2017-07-14 14:25 bonelee 阅读(3528) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2017-07-14 14:08 bonelee 阅读(177) 评论(0) 推荐(0) 编辑
摘要:from: http://www.cnblogs.com/liulangmao/p/3951865.html 本篇主要介绍指令的transclude属性: transclude的值有三个: 1.transclude:false(默认值) 不启用transclude功能. 2.transclude:t 阅读全文
posted @ 2017-07-14 11:07 bonelee 阅读(238) 评论(0) 推荐(0) 编辑
摘要:最近需要做一些文本摘要的东西,选取了TextRank(论文参见《TextRank: Bringing Order into Texts》)作为对比方案,该方案可以很方便的使用Python相关库进行实现。 下面介绍如何利用Python实现一个简单的文本摘要工具。 Demo 【前期准备】: 【背景知识】 阅读全文
posted @ 2017-07-14 10:09 bonelee 阅读(1168) 评论(0) 推荐(0) 编辑
摘要:distinct(numPartitions=None) Return a new RDD containing the distinct elements in this RDD. >>> sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect 阅读全文
posted @ 2017-07-12 14:07 bonelee 阅读(2841) 评论(0) 推荐(0) 编辑
摘要:lookup(key) Return the list of values in the RDD for key key. This operation is done efficiently if the RDD has a known partitioner by only searching 阅读全文
posted @ 2017-07-12 10:47 bonelee 阅读(3196) 评论(0) 推荐(0) 编辑
摘要:rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); rdd = sc.parallelizeDoubles(testData); Now we’ll calculate the mean of o 阅读全文
posted @ 2017-07-12 10:15 bonelee 阅读(584) 评论(0) 推荐(0) 编辑
摘要:上面是粗暴的做法 简单的做法: 阅读全文
posted @ 2017-07-12 09:50 bonelee 阅读(1273) 评论(0) 推荐(0) 编辑
摘要:predictionsAndLabels = predictions.zip(testData.map(lambda lp: lp.label)) 阅读全文
posted @ 2017-07-11 16:44 bonelee 阅读(2246) 评论(0) 推荐(0) 编辑
摘要:class pyspark.mllib.tree.RandomForest[source] Learning algorithm for a random forest model for classification or regression. New in version 1.2.0. New 阅读全文
posted @ 2017-07-11 14:48 bonelee 阅读(1613) 评论(0) 推荐(0) 编辑
摘要:Refer to the DecisionTree Python docs and DecisionTreeModel Python docs for more details on the API. from pyspark.mllib.tree import DecisionTree, Deci 阅读全文
posted @ 2017-07-11 14:47 bonelee 阅读(1460) 评论(0) 推荐(0) 编辑
摘要:分类(Classification) 下面的例子说明了怎样导入LIBSVM 数据文件,解析成RDD[LabeledPoint],然后使用决策树进行分类。GINI不纯度作为不纯度衡量标准并且树的最大深度设置为5。最后计算了测试错误率从而评估算法的准确性。 以下代码展示了如何载入一个LIBSVM数据文件 阅读全文
posted @ 2017-07-11 11:43 bonelee 阅读(2977) 评论(0) 推荐(0) 编辑
摘要:摘自:http://blog.csdn.net/thriving_fcl/article/details/51404655 词的向量化与word2vec简介 word2vec最初是Tomas Mikolov发表的一篇文章[1],同时开源了相应的代码,作用是将所有词语投影到K维的向量空间,每个词语都可 阅读全文
posted @ 2017-07-10 10:34 bonelee 阅读(1577) 评论(0) 推荐(0) 编辑
摘要:遇到海关官员:白人中年女性问:你们来美国干什么?(这个问题是必问的问题)答:生宝宝顺便购物问:什么?生小孩?答:是的。(一定要微笑哦)问:你们带了多少现金?答:一共3万美金,还有visa卡,放心,我肯定会自费生孩子,不会占用美国政府的福利的。(一定要强调,这点很重要)问:你们打算住在哪里?答:我们定 阅读全文
posted @ 2017-07-08 23:44 bonelee 阅读(2140) 评论(0) 推荐(0) 编辑
摘要:摘自:http://www.cnblogs.com/kobedeshow/p/3651833.html 本文将要讨论基于矩阵分解的推荐算法,这一类型的算法通常会有很高的预测精度,也活跃于各大推荐系统竞赛上面,前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型,最后各种ensem 阅读全文
posted @ 2017-07-06 14:23 bonelee 阅读(11144) 评论(3) 推荐(1) 编辑
摘要:Spark MLlib介绍 Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任 阅读全文
posted @ 2017-07-06 12:11 bonelee 阅读(9208) 评论(0) 推荐(0) 编辑
摘要:Spark中常用的算法: 3.2.1 分类算法 分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。MLli 阅读全文
posted @ 2017-07-06 12:11 bonelee 阅读(12963) 评论(0) 推荐(0) 编辑
摘要:为什么一些机器学习模型需要对数据进行归一化? http://www.cnblogs.com/LBSer/p/4440590.html 机器学习模型被互联网行业广泛应用,如排序(参见:排序学习实践)、推荐、反作弊、定位(参见:基于朴素贝叶斯的定位算法)等。一般做机器学习应用的时候大部分时间是花费在特征 阅读全文
posted @ 2017-07-06 09:46 bonelee 阅读(6018) 评论(0) 推荐(1) 编辑
摘要:摘自:http://ramsey16.net/%E8%81%9A%E7%B1%BB%EF%BC%88%E4%B8%89%EF%BC%89fuzzy-c-means/ 经典k-均值聚类算法的每一步迭代中,每一个样本点都被认为是完全属于某一类别。我们可以放松这个条件,假定每个样本xjxj模糊“隶属”于某 阅读全文
posted @ 2017-07-05 15:20 bonelee 阅读(3088) 评论(0) 推荐(0) 编辑
摘要:下面来看看groupByKey和reduceByKey的区别: 虽然两个函数都能得出正确的结果, 但reduceByKey函数更适合使用在大数据集上。 这是因为Spark知道它可以在每个分区移动数据之前将输出数据与一个共用的key结合。 借助下图可以理解在reduceByKey里发生了什么。 在数据 阅读全文
posted @ 2017-07-03 15:34 bonelee 阅读(15240) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示