03 2020 档案

Kafka-分区
摘要:Kafka-分区 kafka的消息时一个个键值对,ProducerRecord对象可以包含目标主题和值,键可以设置为默认的null,不过大多数应用程序会用到键。 键有两个用途;可以作为消息的附加信息,也可以用来决定消息该被写到主题的哪个分区。拥有相同键的消息将被写到同一个分区。 如果键值为null, 阅读全文

posted @ 2020-03-31 23:24 嘣嘣嚓 阅读(403) 评论(0) 推荐(0) 编辑

Kafka-序列化器
摘要:Kafka-序列化器 自定义序列化器 不建议使用自定义序列化器,因为如果序列化器需要新增字段,则会出现新旧消息不兼容问题。推荐使用已知的序列化器和反序列化器,如JSON、Avro、Thrift或Protobuf. /** * @Author FengZhen * @Date 2020-03-30 2 阅读全文

posted @ 2020-03-30 23:35 嘣嘣嚓 阅读(917) 评论(0) 推荐(0) 编辑

Kafka-生产者发消息流程、使用及常用配置
摘要:Kafka-生产者 生产者发送消息流程 1.新建ProducerRecord对象,包含目标主题和要发送的内容。也可以指定键或分区 2.发送ProducerRecord对象时,生产者要把键和值对象序列化成字节数组,这样它们才能在网络上传输 3.数据被传给分区器。 如果ProducerRecord对象中 阅读全文

posted @ 2020-03-29 17:02 嘣嘣嚓 阅读(2910) 评论(0) 推荐(0) 编辑

Kafka-硬件的选择
摘要:Kafka-硬件的选择 磁盘吞吐量(重要,影响生产者) 生产者客户端的性能直接受到服务器端磁盘吞吐量的影响。 生产者生成的消息必须被提交到服务器保存,大多数客户端在发送消息后会一直等待,直到至少一个服务器确认消息已经成功提交为止。 磁盘写入速度越快,生成消息的延迟就越低。 磁盘容量(制约集群规模) 阅读全文

posted @ 2020-03-29 11:54 嘣嘣嚓 阅读(878) 评论(0) 推荐(0) 编辑

Kafka-broker主要配置
摘要:Kafka-broker配置 常规配置 broker.id 每个broker都需要有一个标识符,使用broker.id来表示。它的默认值是0,也可以被设置成其它任意整数。这个值在整个kafka集群里必须是唯一的。 port 默认配置中,kafka会监听9092端口。port可以改为任意可用端口。 需 阅读全文

posted @ 2020-03-26 22:43 嘣嘣嚓 阅读(1058) 评论(0) 推荐(0) 编辑

Kafka-安装使用
摘要:Kafka-安装使用 kafka使用zookeeper保存broker的元数据,所以安装kafka之前需要先安装zookeeper 安装zookeeper 1.准备安装包,解压 此处使用 zookeeper-3.4.9 2.编辑配置文件 在zookeeper根目录下,新建一个数据文件夹data(我用 阅读全文

posted @ 2020-03-25 23:07 嘣嘣嚓 阅读(238) 评论(0) 推荐(0) 编辑

Kafka-为什么选择kafka(kafka的优点)
摘要:Kafka-为什么选择kafka(kafka的优点) 多个生产者 kafka可以无缝的支持多个生产者,不管客户端在使用单个主题还是多个主题。所以它很适合用来从多个前端系统手机数据,并以同一的格式对外提供数据。 例如:一个包含了多个微服务的网站,可以为页面视图创建一个单独的主题,所有服务都以相同的消息 阅读全文

posted @ 2020-03-25 21:57 嘣嘣嚓 阅读(4000) 评论(0) 推荐(0) 编辑

Kafka-常用术语(消息、生产者、消费者、集群、broker解释)
摘要:Kafka-常用术语(消息、生产者、消费者、集群、broker解释) 消息和批次 kafka的数据单元被称为消息。类似于数据库表中的一行数据。 消息由字节数组组成,所以对于kafka来说,消息里的数据没有特别的格式或含义。 消息可以有一个可选的元数据,也就是键,键也是一个字节数组,当消息以一种可控的 阅读全文

posted @ 2020-03-24 21:28 嘣嘣嚓 阅读(1348) 评论(0) 推荐(1) 编辑

机器学习-SVD(隐语义模型)协同过滤
摘要:SVD(隐语义模型)协同过滤 隐语义模型,数学上称为SVD,奇异值分解。该算法最早在文本挖掘领域被提出,用于找到文章的隐含主题,也被称为主题模型。 隐语义模型的核心思想是通过隐含特征(Latent Factor)计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单 阅读全文

posted @ 2020-03-21 16:38 嘣嘣嚓 阅读(728) 评论(0) 推荐(0) 编辑

机器学习-二分KMeans
摘要:机器学习-二分KMeans 由于传统的KMeans算法的聚类结果容易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选到一个类上,一定程度上克服了算法限入局部最优状态。 二分KMeans(Bisec 阅读全文

posted @ 2020-03-19 23:04 嘣嘣嚓 阅读(424) 评论(0) 推荐(0) 编辑

机器学习-推荐系统-协同过滤(基于用户、物品的协同过滤、SVD原理及使用)
摘要:机器学习-推荐系统-协同过滤 协同过滤(Collaborative Filtering, CF) 基于协同过滤的推荐,它的原理很简单,就是根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者发现用户的相关性,然后再基于这些相关性进行推荐。基于协同过滤的推荐可以分为两个简单的子类:基于用户 阅读全文

posted @ 2020-03-15 22:24 嘣嘣嚓 阅读(1263) 评论(0) 推荐(0) 编辑

机器学习-kmeans(实现步骤、sklearn实现、python自实现、优缺点)
摘要:机器学习-kmeans KMeans(K均值)是典型的基于距离的排他划分方法:给定一个n个对象的数据集,它可以构建数据的k个划分,每个划分就是一个聚类,并且k<=n,同时还满足两个要求: 1.每个组至少包含一个对象 2.每个对象必须属于且仅属于一个组 优点: 擅长处理球状分布的数据,当结果聚类是密集 阅读全文

posted @ 2020-03-09 23:19 嘣嘣嚓 阅读(1025) 评论(3) 推荐(0) 编辑

机器学习-Scikit-Learn与回归树
摘要:回归算法原理 CART(Calssification and Regression Tree)算法是目前决策树算法中最为成熟的一类算法,应用范围也比较广泛。它即可用于分类,也可用于预测。 西方预测理论一般都是基于回归的,CART是一种通过决策树方法实现回归的算法,它有很多其他全局回归算法不具有的特性 阅读全文

posted @ 2020-03-08 22:26 嘣嘣嚓 阅读(944) 评论(0) 推荐(0) 编辑

机器学习-预测-线性系统的预测(最小二乘法、正规方程式实现)
摘要:机器学习-预测-线性系统的预测 现在预测学的核心概念:回归。从数学的角度,为事物(系统)的预测提供现代的技术方法。 回归与现代预测学 统计学上最初回归的含义由高尔顿(达尔文的表弟)通过研究父母身高与孩子身高得出。 矮个父母所生的儿子往往会比其父母更高,高个父母所生儿子的身高却回降到多数人的平均身高。 阅读全文

posted @ 2020-03-07 23:31 嘣嘣嚓 阅读(1893) 评论(0) 推荐(0) 编辑

机器学习-决策树-C4.5决策树
摘要:机器学习-决策树-C4.5决策树 针对ID3算法存在的一些问题,1993年,Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题,发展成为机器学习的十大算法之一。 C4.5并没有改变ID3的算法逻辑,基本的程序结构仍与ID3相同,但在节点的划分标准上做了改进。C4 阅读全文

posted @ 2020-03-06 23:41 嘣嘣嚓 阅读(630) 评论(0) 推荐(0) 编辑

机器学习-决策树-ID3决策树
摘要:机器学习-决策树-ID3决策树 原理看上一篇,这篇只有代码实现 它以信息熵为度量标准,划分出决策树特征节点,每次优先选取信息量最多的属性,也就是使信息熵变为最小的属性,以构造一颗信息熵下降最快的决策树。 缺点 ID3算法的节点划分度量标准采用的是信息增益,信息增益偏向于选择特征值个数较多的特征。而取 阅读全文

posted @ 2020-03-05 23:36 嘣嘣嚓 阅读(284) 评论(0) 推荐(0) 编辑

机器学习-决策树的基本思想
摘要:机器学习-决策树的基本思想 决策树算法是最早的机器学习算法之一。 算法框架 1.决策树主函数 各种决策树的主函数都大同小异,本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点,并根据终止条件结束算法。一般来讲,主函数需要完成如下几个功能。 (1)输入需要分类的数据集和类别 阅读全文

posted @ 2020-03-05 00:20 嘣嘣嚓 阅读(1035) 评论(0) 推荐(0) 编辑

机器学习-分类算法-kNN
摘要:机器学习-分类算法-kNN kNN(k-Nearest Neighbor)算法:一种基于向量间相似度的分类算法。 kNN原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法。它采用测量不同特征之间的距离方法进行分类。 如果一个样本在特征空间中的k个最近邻(最相似)的样本 阅读全文

posted @ 2020-03-04 22:23 嘣嘣嚓 阅读(361) 评论(0) 推荐(0) 编辑

机器学习-朴素贝叶斯原理及Python实现
摘要:机器学习-朴素贝叶斯原理及Python实现 贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例:苹果10个,有2个黄色;梨10个,有6个黄色,求拿出一个黄色水果,是苹果的概率。 代入公式: P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6 阅读全文

posted @ 2020-03-03 23:26 嘣嘣嚓 阅读(358) 评论(0) 推荐(0) 编辑

机器学习-文本聚类实例-kmeans
摘要:机器学习-文本聚类实例-kmeans import os import gensim import jieba from gensim.models.doc2vec import Doc2Vec from sklearn.cluster import KMeans TaggededDocument 阅读全文

posted @ 2020-03-03 21:19 嘣嘣嚓 阅读(1596) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示