2020 年 3月随笔档案 - 嘣嘣嚓

Kafka-分区

摘要：Kafka-分区 kafka的消息时一个个键值对，ProducerRecord对象可以包含目标主题和值，键可以设置为默认的null，不过大多数应用程序会用到键。键有两个用途；可以作为消息的附加信息，也可以用来决定消息该被写到主题的哪个分区。拥有相同键的消息将被写到同一个分区。如果键值为null，阅读全文

posted @ 2020-03-31 23:24 嘣嘣嚓阅读(403) 评论(0) 推荐(0) 编辑

Kafka-序列化器

摘要：Kafka-序列化器自定义序列化器不建议使用自定义序列化器，因为如果序列化器需要新增字段，则会出现新旧消息不兼容问题。推荐使用已知的序列化器和反序列化器，如JSON、Avro、Thrift或Protobuf. /** * @Author FengZhen * @Date 2020-03-30 2 阅读全文

posted @ 2020-03-30 23:35 嘣嘣嚓阅读(917) 评论(0) 推荐(0) 编辑

Kafka-生产者发消息流程、使用及常用配置

摘要：Kafka-生产者生产者发送消息流程 1.新建ProducerRecord对象，包含目标主题和要发送的内容。也可以指定键或分区 2.发送ProducerRecord对象时，生产者要把键和值对象序列化成字节数组，这样它们才能在网络上传输 3.数据被传给分区器。如果ProducerRecord对象中阅读全文

posted @ 2020-03-29 17:02 嘣嘣嚓阅读(2910) 评论(0) 推荐(0) 编辑

Kafka-硬件的选择

摘要：Kafka-硬件的选择磁盘吞吐量（重要，影响生产者）生产者客户端的性能直接受到服务器端磁盘吞吐量的影响。生产者生成的消息必须被提交到服务器保存，大多数客户端在发送消息后会一直等待，直到至少一个服务器确认消息已经成功提交为止。磁盘写入速度越快，生成消息的延迟就越低。磁盘容量（制约集群规模）阅读全文

posted @ 2020-03-29 11:54 嘣嘣嚓阅读(878) 评论(0) 推荐(0) 编辑

Kafka-broker主要配置

摘要：Kafka-broker配置常规配置 broker.id 每个broker都需要有一个标识符，使用broker.id来表示。它的默认值是0，也可以被设置成其它任意整数。这个值在整个kafka集群里必须是唯一的。 port 默认配置中，kafka会监听9092端口。port可以改为任意可用端口。需阅读全文

posted @ 2020-03-26 22:43 嘣嘣嚓阅读(1058) 评论(0) 推荐(0) 编辑

Kafka-安装使用

摘要：Kafka-安装使用 kafka使用zookeeper保存broker的元数据，所以安装kafka之前需要先安装zookeeper 安装zookeeper 1.准备安装包，解压此处使用 zookeeper-3.4.9 2.编辑配置文件在zookeeper根目录下，新建一个数据文件夹data(我用阅读全文

posted @ 2020-03-25 23:07 嘣嘣嚓阅读(238) 评论(0) 推荐(0) 编辑

Kafka-为什么选择kafka(kafka的优点)

摘要：Kafka-为什么选择kafka(kafka的优点) 多个生产者 kafka可以无缝的支持多个生产者，不管客户端在使用单个主题还是多个主题。所以它很适合用来从多个前端系统手机数据，并以同一的格式对外提供数据。例如:一个包含了多个微服务的网站，可以为页面视图创建一个单独的主题，所有服务都以相同的消息阅读全文

posted @ 2020-03-25 21:57 嘣嘣嚓阅读(4000) 评论(0) 推荐(0) 编辑

Kafka-常用术语(消息、生产者、消费者、集群、broker解释)

摘要：Kafka-常用术语(消息、生产者、消费者、集群、broker解释) 消息和批次 kafka的数据单元被称为消息。类似于数据库表中的一行数据。消息由字节数组组成，所以对于kafka来说，消息里的数据没有特别的格式或含义。消息可以有一个可选的元数据，也就是键，键也是一个字节数组，当消息以一种可控的阅读全文

posted @ 2020-03-24 21:28 嘣嘣嚓阅读(1348) 评论(0) 推荐(1) 编辑

机器学习-SVD(隐语义模型)协同过滤

摘要：SVD(隐语义模型)协同过滤隐语义模型，数学上称为SVD，奇异值分解。该算法最早在文本挖掘领域被提出，用于找到文章的隐含主题，也被称为主题模型。隐语义模型的核心思想是通过隐含特征（Latent Factor）计算用户和物品的相似性。 SVD是将矩阵A分解成以下形式 A=U∑VT 其中U和V均为单阅读全文

posted @ 2020-03-21 16:38 嘣嘣嚓阅读(728) 评论(0) 推荐(0) 编辑

机器学习-二分KMeans

摘要：机器学习-二分KMeans 由于传统的KMeans算法的聚类结果容易受到初始聚类中心点选择的影响，因此在传统的KMeans算法的基础上进行算法改进，对初始中心点选取比较严格，各中心点的距离较远，这就避免了初始聚类中心会选到一个类上，一定程度上克服了算法限入局部最优状态。二分KMeans(Bisec 阅读全文

posted @ 2020-03-19 23:04 嘣嘣嚓阅读(424) 评论(0) 推荐(0) 编辑

机器学习-推荐系统-协同过滤(基于用户、物品的协同过滤、SVD原理及使用)

摘要：机器学习-推荐系统-协同过滤协同过滤(Collaborative Filtering, CF) 基于协同过滤的推荐，它的原理很简单，就是根据用户对物品或者信息的偏好，发现物品或者内容本身的相关性，或者发现用户的相关性，然后再基于这些相关性进行推荐。基于协同过滤的推荐可以分为两个简单的子类：基于用户阅读全文

posted @ 2020-03-15 22:24 嘣嘣嚓阅读(1263) 评论(0) 推荐(0) 编辑

机器学习-kmeans(实现步骤、sklearn实现、python自实现、优缺点)

摘要：机器学习-kmeans KMeans（K均值）是典型的基于距离的排他划分方法：给定一个n个对象的数据集，它可以构建数据的k个划分，每个划分就是一个聚类，并且k<=n，同时还满足两个要求: 1.每个组至少包含一个对象 2.每个对象必须属于且仅属于一个组优点：擅长处理球状分布的数据，当结果聚类是密集阅读全文

posted @ 2020-03-09 23:19 嘣嘣嚓阅读(1025) 评论(3) 推荐(0) 编辑

机器学习-Scikit-Learn与回归树

摘要：回归算法原理 CART(Calssification and Regression Tree)算法是目前决策树算法中最为成熟的一类算法，应用范围也比较广泛。它即可用于分类，也可用于预测。西方预测理论一般都是基于回归的，CART是一种通过决策树方法实现回归的算法，它有很多其他全局回归算法不具有的特性阅读全文

posted @ 2020-03-08 22:26 嘣嘣嚓阅读(944) 评论(0) 推荐(0) 编辑

机器学习-预测-线性系统的预测（最小二乘法、正规方程式实现）

摘要：机器学习-预测-线性系统的预测现在预测学的核心概念：回归。从数学的角度，为事物（系统）的预测提供现代的技术方法。回归与现代预测学统计学上最初回归的含义由高尔顿（达尔文的表弟）通过研究父母身高与孩子身高得出。矮个父母所生的儿子往往会比其父母更高，高个父母所生儿子的身高却回降到多数人的平均身高。阅读全文

posted @ 2020-03-07 23:31 嘣嘣嚓阅读(1893) 评论(0) 推荐(0) 编辑

机器学习-决策树-C4.5决策树

摘要：机器学习-决策树-C4.5决策树针对ID3算法存在的一些问题，1993年，Quinlan将ID3算法改进为C4.5算法。该算法成功地解决了ID3算法遇到的诸多问题，发展成为机器学习的十大算法之一。 C4.5并没有改变ID3的算法逻辑，基本的程序结构仍与ID3相同，但在节点的划分标准上做了改进。C4 阅读全文

posted @ 2020-03-06 23:41 嘣嘣嚓阅读(630) 评论(0) 推荐(0) 编辑

机器学习-决策树-ID3决策树

摘要：机器学习-决策树-ID3决策树原理看上一篇，这篇只有代码实现它以信息熵为度量标准，划分出决策树特征节点，每次优先选取信息量最多的属性，也就是使信息熵变为最小的属性，以构造一颗信息熵下降最快的决策树。缺点 ID3算法的节点划分度量标准采用的是信息增益，信息增益偏向于选择特征值个数较多的特征。而取阅读全文

posted @ 2020-03-05 23:36 嘣嘣嚓阅读(284) 评论(0) 推荐(0) 编辑

机器学习-决策树的基本思想

摘要：机器学习-决策树的基本思想决策树算法是最早的机器学习算法之一。算法框架 1.决策树主函数各种决策树的主函数都大同小异，本质上是一个递归函数。该函数的主要功能是按照某种规则生长出决策树的各个分支节点，并根据终止条件结束算法。一般来讲，主函数需要完成如下几个功能。（1）输入需要分类的数据集和类别阅读全文

posted @ 2020-03-05 00:20 嘣嘣嚓阅读(1035) 评论(0) 推荐(0) 编辑

机器学习-分类算法-kNN

摘要：机器学习-分类算法-kNN kNN（k-Nearest Neighbor）算法：一种基于向量间相似度的分类算法。 kNN原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法。它采用测量不同特征之间的距离方法进行分类。如果一个样本在特征空间中的k个最近邻（最相似）的样本阅读全文

posted @ 2020-03-04 22:23 嘣嘣嚓阅读(361) 评论(0) 推荐(0) 编辑

机器学习-朴素贝叶斯原理及Python实现

摘要：机器学习-朴素贝叶斯原理及Python实现贝叶斯公式 P(A|B) = (P(B|A)P(A))/P(B) 举例：苹果10个，有2个黄色；梨10个，有6个黄色，求拿出一个黄色水果，是苹果的概率。代入公式： P(苹果|黄色) = (P(黄色|苹果)P(苹果))/P(黄色) P(黄色) = (2+6 阅读全文

posted @ 2020-03-03 23:26 嘣嘣嚓阅读(358) 评论(0) 推荐(0) 编辑

机器学习-文本聚类实例-kmeans

摘要：机器学习-文本聚类实例-kmeans import os import gensim import jieba from gensim.models.doc2vec import Doc2Vec from sklearn.cluster import KMeans TaggededDocument 阅读全文

posted @ 2020-03-03 21:19 嘣嘣嚓阅读(1596) 评论(0) 推荐(0) 编辑

嘣嘣嚓

03 2020 档案