still like you - 随笔分类 - 夜半钟声到客船

相似度计算方法

摘要：1.余弦相似度在平面系 a向量与b向量的夹角越小，说明相似度越大，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，这就叫"余弦相似性"。在三维也是一个道理（x,y,z）确定的一点与点（a,b,c）一点的夹角高中学过向量a与向量b的乘积定义为：所以两者的夹角为 cos=a*b/|a 阅读全文

posted @ 2019-08-07 21:03 夜半钟声到客船阅读(1520) 评论(0) 推荐(0)

推荐系统学习

摘要：1.两种相似度的定义： •User-Based CF 计算user与user的相似度矩阵 –用户喜欢那些跟他有相似爱好的用户喜欢的东西基于用户相似度:用户对同一商品进行购买与评分，评分越高则喜欢程度越高，进行相似度计算，后续可推荐相似用户买过的商品 •Item-Based CF 计算item-it 阅读全文

posted @ 2019-08-07 00:44 夜半钟声到客船阅读(236) 评论(0) 推荐(0)

数仓学习2

摘要：在spark 任务时，必须注意cache的中间的的复用job，后续unpersist掉一、数据仓库建模理论 1.在数据仓库领域有两个派系：Bill Inmon建模方法论和Ralph Kimball建模方法论 •Bill Inmon被称为“数据仓库之父” •Ralph Kimball被称为“商业智能阅读全文

posted @ 2019-07-29 23:45 夜半钟声到客船阅读(645) 评论(0) 推荐(0)

数仓学习1

摘要：通常说的大数据平台主要包括三部分：数据相关的工具、产品和技术： – 批量数据采集传输sqoop，spark – 离线数据处理Hadoop，Hive，Spark – 实时流处理Storm，Spark Streaming，Flink • 数据资产： – 公司业务本身产生和沉淀的数据 – 公司运作产生的阅读全文

posted @ 2019-07-24 23:54 夜半钟声到客船阅读(334) 评论(0) 推荐(0)

线性回归与逻辑回归

只有注册用户登录后才能阅读该文。

posted @ 2019-07-22 23:24 夜半钟声到客船

hive2

摘要：4.hive优化 1)跑sql的时候会出现的参数： In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= 如果大于，就会多生成一个reduce =1024 set hive.exec.reducers.max... 阅读全文

posted @ 2019-07-14 23:18 夜半钟声到客船阅读(358) 评论(0) 推荐(0)

hive学习

摘要：1.hive的基础sql 建立测试数据表：文章表：里面存入一段话，一个字段（1）hive进行wordcount的统计（2）经典的行转列统计分析要求转换为以下形式： (3)经典函数时间计算的使用 udata.user_id udata.item_id udata.rating udata 阅读全文

posted @ 2019-07-03 23:18 夜半钟声到客船阅读(579) 评论(0) 推荐(0)

落霞与孤鹜齐飞

中山桥砖厂搬砖者

随笔分类 - still like you

公告