摘要: 通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html 能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢? Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢? 一、Kafka简介 htt 阅读全文
posted @ 2019-07-22 16:51 独孤风 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 参考官网:http://kafka.apache.org/quickstart 一、下载Kafka 官网下载地址 http://kafka.apache.org/downloads 截至2019年7月8日 最新版本为 2.3.0 2.12为编译的scala版本 2.3.0为kafka版本 Scala 阅读全文
posted @ 2019-07-08 14:22 独孤风 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: 推荐系统(Recommender Systems) 大数据流动 专注于大数据实时计算,数据治理,数据可视化等技术分享与实践。 请在后台回复关键字下载相关资料。相关学习交流群已经成立,欢迎加入~ 阅读全文
posted @ 2019-06-24 13:41 独孤风 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 异常检测(Anomaly Detection) 给定数据集 𝑥(1),𝑥(2),..,𝑥(𝑚),我们假使数据集是正常的,我们希望知道新的数据 𝑥𝑡𝑒𝑠𝑡 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据 该测试数据的位置告诉我们其属于一组数据的可能性 阅读全文
posted @ 2019-06-24 13:29 独孤风 阅读(557) 评论(0) 推荐(0) 编辑
摘要: 降维(Dimensionality Reduction) 降维的目的:1 数据压缩 这个是二维降一维 三维降二维就是落在一个平面上。 2 数据可视化 降维的算法只负责减少维数,新产生的特征的意义就必须由我们自 己去发现了。 主成分分析(PCA)是最常见的降维算法。 在 PCA 中,我们要做的是找到一 阅读全文
posted @ 2019-06-24 13:22 独孤风 阅读(933) 评论(0) 推荐(0) 编辑
摘要: 无监督学习 没有标签 聚类(Clustering) 图上的数据看起来可以分成两个分开的点集(称为簇),这就是为聚类算法。 此后我们还将提到其他类型的非监督学习算法,它们可以为我们找到其他类型的结构或者其他的一些模式,而不只是簇。 K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类 阅读全文
posted @ 2019-06-24 10:16 独孤风 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 与逻辑回归和神经网络相比,支持向量机或者简称 SVM,更为强大。 人们有时将支持向量机看作是大间距分类器。 这是我的支持向量机模型代价函数 这样将得到一个更好的决策边界 理解支持向量机模型的做法,即努力将正样本和负用最大间距分开。 实际上应用支持向量机的时候, 当𝐶不是非常大的时候, 它可以忽略掉 阅读全文
posted @ 2019-06-20 17:00 独孤风 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 获得更多的训练实例——通常是有效的,但代价较大,下面的方法也可能有效,可考虑 先采用下面的几种方法。 1.尝试减少特征的数量 2.尝试获得更多的特征 3.尝试增加多项式特征 4.尝试减少正则化程度𝜇 我们需要使用交叉 验证集来帮助选择模型。 即:使用 60%的数据作为训练集,使用 20%的数据作为 阅读全文
posted @ 2019-06-04 09:57 独孤风 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 前提已经安装好hadoop的hdfs集群,可以查看 https://www.cnblogs.com/tree1123/p/10683570.html Mapreduce是hadoop的运算框架,可以对hdfs中的数据分开进行计算,先执行很多maptask,在执行reducetask,这个过程中任务的 阅读全文
posted @ 2019-04-15 15:56 独孤风 阅读(406) 评论(0) 推荐(1) 编辑
摘要: 无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时, 计算的负荷会非常大。 比如识别图像,是否是一辆汽车,可能就需要判断太多像素。 这时候就需要神经网络。 神经网络是模拟人类大脑的神经网络,由神经元,输入树突,输出树突构成。 由此设计神经网络模型: x1,x2,x3是输入单元,将原始数据给 阅读全文
posted @ 2019-04-15 10:54 独孤风 阅读(344) 评论(0) 推荐(0) 编辑