摘要:
一、大数据平台组件总结 1、数据存储 HDFS,HBase,Kudu等 2、数据收集和迁移 常用技术:flume,canal,sqoop,datax,waterdrop 等 3、任务调度 常用技术:azkaban,oozie,dophinscheduler,airflow 等 4、部署运维 常用技术 阅读全文
摘要:
1、什么是Elasticsearch? Elasticsearch 是基于 Lucene 的 Restful 的分布式实时全文搜索引擎,每个字段都被索引并可被搜索,可以快速存储、搜索、分析海量的数据。全文检索是指对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当查询时,根据事先建立的索引进 阅读全文
摘要:
代理模式是一种设计模式,能够使得在不修改源目标的前提下,额外扩展源目标的功能。即通过访问源目标的代理类,再由代理类去访问源目标。这样一来,要扩展功能,就无需修改源目标的代码了。只需要在代理类上增加就可以了。 其实代理模式的核心思想就是这么简单,在java中,代理又分静态代理和动态代理2种,其中动态代 阅读全文
摘要:
一、微服务的大体架构 二、微服务的学习路线 三、优缺点 1、单体架构特点?简单方便,高度耦合,扩展性差,适合小型项目。例如:学生管理系统2、分布式架构特点?松耦合,扩展性好,但架构复杂,难度大。适合大型互联网项目,例如:京东、淘宝3、微服务:一种良好的分布式架构方案优点:拆分粒度更小、服务更独立、耦 阅读全文
摘要:
首先我们需要清楚的一点就是无论是悲观锁还是乐观锁,都是人们定义出来的概念,可以认为是一种思想。 一、悲观锁 悲观锁(Pessimistic Lock): 就是很悲观,每次去拿数据的时候都认为别人会修改。所以每次在拿数据的时候都会上锁。这样别人想拿数据就被挡住,直到悲观锁被释放,悲观锁中的共享资源每次 阅读全文
摘要:
各位同学以后海牛集群不提供VPN直连,使用需通过海牛云平台跳转到op机。目前只支持PC浏览器操作海牛云平台使用方法看视频https://www.bilibili.com/video/BV1GG4y1n7fy/?spm_id_from=333.999.0.0https://www.bilibili.c 阅读全文
摘要:
一、L1和L2的区别 二、参数正则化作用 L1: 为模型加入先验, 简化模型, 使权值稀疏,由于权值的稀疏,从而过滤掉一些无用特征,防止过拟合 L2: 根据L2的特性,它会使得权值减小,即使平滑权值,一定程度上也能和L1一样起到简化模型,加速训练的作用,同时可防止模型过拟合 三、为什么L1会使得权重 阅读全文
摘要:
参考:1、XGBoost核心算法原理详解 阅读全文
摘要:
在回归任务(对连续值的预测)中,常见的评估指标(Metric)有:平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolut 阅读全文
摘要:
一、当前表结构 建表语句 CREATE TABLE `xfhf_label` ( `xfhf` varchar(255) DEFAULT NULL, `keyWord` varchar(255) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8; I 阅读全文
摘要:
关联规则是反应一个实物与其他事物之间的相互依存性和关联性。 支持度(Support):几个关联的数据在数据集中出现的次数占总数据集的比重。 置信度(Confidence):体现了一个数据出现后,另一个数据出现的概率,或者说数据的条件概率。 提升度(Lift):置信度/支持度 一、Apriori算法 阅读全文
摘要:
一、根据 levelCodeName 更新 levelCode 建表语句 CREATE TABLE `sy_cd_ms_tag_level` ( `id` int(10) NOT NULL AUTO_INCREMENT, `bigId` int(10) NOT NULL COMMENT '大类编码' 阅读全文
摘要:
一、sigmod函数 逻辑回归:其实就是线性回归的值域加一个sigmoid 函数。 sigmoid函数表达式如下 这就是sigmoid函数的表达式,这个函数在伯努利分布上非常好用,现在看看他的图像就清楚 二、损失函数及其推导过程 参考博客:1、机器学习之sigmoid函数 阅读全文
摘要:
一、二项分布 二项分布:即n次独立重复试验,在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。 伯努利分布的数学公式表达如下: 如果表示抛硬币,则正面向上 阅读全文
摘要:
一、实时召回架构 12节 二、数据方法论 阅读全文
摘要:
一、算法分类 基于模型的协同过滤作为目前最主流的协同过滤类型,当只有部分用户和部分物品之间是有评分数据的,其他部分评分是空白,此时我们要用已有的部分稀疏数据来预测那些空白的用户和物品之间的评分关系,找到最高评分的物品推荐给用户,实现用户对未评价过的物品的预测评分。 基于模型协同过滤的方法包括:用关联 阅读全文
摘要:
一、概述 u2tag2i:基于标签的泛化推荐,先统计用户偏好的tag向量,然后匹配所有的Item,(这个tag一般是item的标签、分类、关键词等tag),可以利用jaccard距离公式算相似性评分; 优点: 基于内容的推荐一般是推荐系统的起步阶段,而且会持续存在,其重要性不可替代。 (1) 为某一 阅读全文
摘要:
一、概述 核心思想:根据所有用户对物品或者信息的评价,发现物品和物品之间的相似度,然后根据用户的历史偏好信息将类似的物品推荐给该用户。 二、优点 UserCF的缺点: (1)用户数量往往比较大,计算起来非常吃力,成为瓶颈。 (2)用户的口味其实变化还是很快的,不是静态的,所以兴趣迁移问题很难反映出来 阅读全文
摘要:
一、核心思想: 先根据历史消费行为帮你找到一群和你口味相似的用户;然后根据这些和你相似的用户再消费了什么新的、你没有见过的物品,都可以推荐给你。 由此可知,大概流程如下: 1.计算用户之间的相似矩阵 2.基于用户相似矩阵(去给B做推荐)找到与B最相似的用户A,用户A喜欢的物品并且B用户未看过的物品, 阅读全文
摘要:
一、思想 聚类:人以群分、物以类聚,使得簇内的距离接近,簇间距离远。 可以做推荐冷启动,区域推荐热榜、用户画像 二、算法步骤: 1、随机设置K个特征空间内的点作为初始的聚类中心 2、对于其他每个点计算到K个中心的距离,从中选出距离最近的⼀个点作为⾃⼰的标记 3、接着对着标记的聚类中心之后,重新计算出 阅读全文
摘要:
问题需求:下面是用户的好友关系列表,每一行代表一个用户和他的好友列表。求出任意两个人之间的共同好友都有谁(好友关系是单向的,也就是说1的好友里面有2,但是2的好友里面不一定有1)。 1 2,3,4,5,6 3 1,5,6,7,9 2 3,5,7,9,11,12 思路: 1.首先把用户作为value, 阅读全文
摘要:
给的数据如下图: 需要实现的结果(需要对label去重): mysql: 建表和准备数据 CREATE TABLE `comp_label` ( `compName` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NU 阅读全文
摘要:
一、两阶段提交2PC 在分布式系统中,可以使用两阶段提交来实现事务性从而保证数据的一致性,两阶段提交分为:预提交阶段与提交阶段,通常包含两个角色:协调者与执行者,协调者用于用于管理所有执行者的操作,执行者用于执行具体的提交操作,具体的操作流程:1. 首先协调者会送预提交(pre-commit)命令有 阅读全文
摘要:
1)youtubenet里面如何加item特征,以及youtube和dssm相比有啥优缺点?答:论文没有加,但可以人工加,youtubenet最后一层softmax层就是物品的embedding,所以在初始化的时候用sideinformation的embedding合并后跟最后一层做预测。双塔分为u 阅读全文
摘要:
博客 刘建平Pinard 阮一峰的网络日志 https://github.com/liuhuanyong 机器学习原理 寒小阳 LDA八卦 刘焕勇 nlp 文章 TF-IDF与余弦相似性的应用(一):自动提取关键词 Spark MLlib机器学习 | 算法综合实战(一)(史上最详细) mllib的f 阅读全文
摘要:
1、按Ctrl+F,弹出“替换”的窗口; 2、选择“替换”菜单; 3、“查找目标”内容输入为:\r\n; 4、“替换为”内容为空; 5、“查找模式”选择为正则表达式; 6、设置好之后,点击“全部替换”,即可将多行数据合并成一行。 参考:使用Notepad++将多行数据合并成一行 阅读全文
摘要:
介绍 布隆过滤器(Bloom Filter,下文简称BF)由Burton Howard Bloom在1970年提出,是一种空间效率高的概率型数据结构。它专门用来检测集合中是否存在特定的元素。 设计思想 布隆过滤器是由一个长度为m比特的位数组(bit array)与k个哈希函数(hash functi 阅读全文
摘要:
二叉树理论基础 满二叉树:如果一棵二叉树只有度为0的结点和度为2的结点,并且度为0的结点在同一层上,则这棵二叉树为满二叉树。 完全二叉树:在完全二叉树中,除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干位置。若最底层为第 h 层,则该层包含 1~ 阅读全文
摘要:
1.统计出IP的文件,哪个ip出现的次数最多,一行一个ip。如果文件很大,超过内存。 (1)将ip地址放入多个小文件中,保证每种IP只出现在一个文件中(2)利用hashmap统计每个小文件中IP出现的次数(3)利用最小堆得到所有IP访问次数最多的100个 2.给定a、b两个文件,各存放50亿个url 阅读全文