Fork me on GitHub
摘要: 0. 复杂度分析 0.时间空间复杂度 1. 数据结构 1.1 数组 1.2 链表 1.3 跳表 1.4 栈、队列 1.5 散列表、映射、集合 1.6 树、二叉树、二叉搜索树 AVL树、红黑树 字典树、并查集 1.7 堆 1.8 图 2. 算法 2.1 递归 2.2 分治和回溯 2.3 DFS、BFS 阅读全文
posted @ 2020-08-31 23:42 kris12 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 数仓| 离线& 实时 Flume数据采集的搭建及其架构原理 Kafka Hadoop Hive Spark Flink Mysql& Redis Hbase ELK 调度框架 Linux 常用工具 TRANSLATE with x English Arabic Hebrew Polish Bulga 阅读全文
posted @ 2019-06-01 14:14 kris12 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 0. SQL数据库 1. python基础知识 2. 重点工具掌握:数据解析核心技巧 - Numpy| Pandas| Matplotlib 3. 数据特征分析:分布| 对比| 统计| 帕累托| 正态| 相关性分析 4. 数据处理:缺失值| 异常值| 数据归一| 数据连续属性离散化 5. 数学建模: 阅读全文
posted @ 2018-10-14 18:39 kris12 阅读(1908) 评论(0) 推荐(0) 编辑
摘要: 1. 因子分解机 MF的回顾 矩阵分解: 将矩阵拆解为多个矩阵的乘积 用户users和商品Items的评分矩阵是稀疏的,因为他不会对所有商品打分;把它拆分为2部分,K值是降维的维度,比如user1对10w个电影打分,10w降为K维(K一般取100左右); k维降维变成稠密矩阵; 矩阵分解方法: EV 阅读全文
posted @ 2023-07-07 08:23 kris12 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 蒸馏收敛 基于keras的知识蒸馏(Knowledge Distillation)-分类与回归 如果通过蒸馏收敛到一个更优的的部署模型 Knowledge Distillation Introduction to Knowledge Distillation 知识提取是一种模型压缩过程,其中对小(学 阅读全文
posted @ 2023-04-14 07:48 kris12 阅读(173) 评论(0) 推荐(0) 编辑
摘要: word2vec 单词向量化表示 word2vec 下分为两个模型CBOW与Skip-gram ,分别包含Hierarchical Softmax和 Negative Sampling两个方法; 1. 连续词袋模型(CBOW)与跳字模型(Skip-gram) 单词W; 词典D = {W1, W2, 阅读全文
posted @ 2023-04-11 07:03 kris12 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 循环神经网络 CV是和image图片和视频打交道; NLP 自然语言处理是和文本打交道,文本天然的时序数据; 1. 场景与多种应用 模仿论文(生成序列) 模型Linux内核代码“写程序” (生成序列)| 按概率分布去做排布 模仿小四的作品(生成文本序列) 机器翻译 Image to text/ 看图 阅读全文
posted @ 2023-04-01 16:28 kris12 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 神经网络与卷积神经网络 卷积神经网络会很频繁的用在计算机视觉中,同样也会应用到自然语言处理中的情感分析等; 从神经网络到卷积神经网络 DNN能用到计算机视觉上吗?为什么需要CNN? 卷积神经网络和人工神经网络的差异在哪? ① 图像三维矩阵,跟输入的维度没有关系,采集到的数据单个样本的维度很高,256 阅读全文
posted @ 2023-03-31 08:32 kris12 阅读(509) 评论(0) 推荐(0) 编辑
摘要: 输入input,特征提取(feature representation (hand-crafted)),学习算法(learn algorithm,eg.. SVM) 线性分类器 线性分类器比如逻辑回归、线性SVM,我们会拿到一个决策边界(直线、平面等); 监督学习很重要的两点:假设函数(从x怎么得到 阅读全文
posted @ 2023-03-30 07:49 kris12 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 有向有权图 图的两种搜索算法,深度优先搜索和广度优先搜索。这两种算法主要是针对无权图的搜索算法。 针对有权图,也就是图中的每条边都有一个权重,该如何计算两点之间的最短路径(经过的边的权重和最小)呢?常用的最短路径算法(Shortest Path Algorithm)。 地图软件的最优路线是如何计算出 阅读全文
posted @ 2021-08-25 17:42 kris12 阅读(521) 评论(0) 推荐(0) 编辑
摘要: 有非常多的书在讲用户画像,并且有一大堆方法论。 在实际工作的过程中用到的用户画像,希望能够给你启发或者能够直接用得上。 1. 第一套用户画像:羊群与草地 比如,YY的创始人和董事长李学凌给讲了一组用户画像,早期做产品就是用他的这组用户画像来做的。他说: 如果我有一片草地,我就在我的草地上养羊,所以我 阅读全文
posted @ 2021-07-25 10:59 kris12 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: 1. 自然语言处理应用 自然语言处理(Natural Language Processing, NLP),通过理解人类语言来解决实际问题的一门学科。 自然语言处理不仅是学术界的研究热点,在工业界也有许多成果,如谷歌的文本搜索引擎、苹果的Siri、微软小冰等。 对自然语言处理问题的研究可以追溯到二十世 阅读全文
posted @ 2021-05-23 15:43 kris12 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 1. Kafka的事务和 Exactly Once Kafka 中的事务,它解决的问题是,确保在一个事务中发送的多条消息,要么都成功,要么都失败。注意,这里面的多条消息不一定要在同一个主题和分区中,可以是发往多个主题和 分区的消息。Kafka 的这种事务机制,单独来使用的场景不多。更多的情况下被用来 阅读全文
posted @ 2021-01-26 21:11 kris12 阅读(2462) 评论(0) 推荐(0) 编辑
levels of contents