随笔分类 - still like you
摘要:1.余弦相似度 在平面系 a向量与b向量的夹角越小,说明相似度越大,余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。 在三维也是一个道理(x,y,z)确定的一点与点(a,b,c)一点的夹角 高中学过向量a与向量b的乘积定义为: 所以两者的夹角为 cos=a*b/|a
阅读全文
摘要:1.两种相似度的定义: •User-Based CF 计算user与user的相似度矩阵 –用户喜欢那些跟他有相似爱好的用户喜欢的东西 基于用户相似度:用户对同一商品进行购买与评分,评分越高则喜欢程度越高,进行相似度计算,后续可推荐相似用户买过的商品 •Item-Based CF 计算item-it
阅读全文
摘要:在spark 任务时,必须注意cache的中间的的复用job,后续unpersist掉 一、数据仓库建模理论 1.在数据仓库领域有两个派系:Bill Inmon建模方法论和Ralph Kimball建模方法论 •Bill Inmon被称为“数据仓库之父” •Ralph Kimball被称为“商业智能
阅读全文
摘要:通常说的大数据平台主要包括三部分: 数据相关的工具、产品和技术: – 批量数据采集传输sqoop,spark – 离线数据处理Hadoop,Hive,Spark – 实时流处理Storm,Spark Streaming,Flink • 数据资产: – 公司业务本身产生和沉淀的数据 – 公司运作产生的
阅读全文
摘要:4.hive优化 1)跑sql的时候会出现的参数: In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer= 如果大于,就会多生成一个reduce =1024 set hive.exec.reducers.max...
阅读全文
摘要:1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata
阅读全文