随笔分类 - 大数据学习
hadoop等
摘要:在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。
阅读全文
摘要:首先,要实现协同过滤,需要一下几个步骤:1.收集用户偏好;2.找到相似的用户或物品;3.计算推荐
阅读全文
摘要:基于协同过滤的推荐 ,根据用户对物品或者信息的偏好,发现物品或者内容本身的相关性,或者是发现用户的相关性,然后再基于这些关联性进行推荐。
阅读全文
摘要:Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。
阅读全文
摘要:HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。
阅读全文
摘要:hadoop支持命令行操作HDFS文件系统,并且支持shell-like命令与HDFS文件系统交互,对于大多数程序猿/媛来说,shell-like命令行操作都是比较熟悉的,其实这也是Hadoop的极大便利之一,至少对于想熟悉乃至尽快熟练操作HDFS的人来说。
阅读全文
摘要:介绍了Dirichlet分布及其属性,可以作为学习LDA、HDP等主题模型的基础
阅读全文