随笔分类 -  数据挖掘

摘要:互联网 -> 推荐系统 (实时推荐) 长尾理论: 冷门商品销售额甚至可能超过热门商品,推荐长尾商品给“需要”的用户。需要通过挖掘,获得用户特征(个性化推荐)。 推荐方法: 专家推荐:领域专家,人为推荐 统计推荐: 热门排行榜 基于内容推荐: 挖掘物品特征,推荐与它相似的产品 协同过滤推荐: 用户 A 阅读全文
posted @ 2020-02-29 21:07 神之一招 阅读(217) 评论(0) 推荐(0) 编辑
摘要:静态数据:比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测, 这种需要实时的监控和处理(分析). 流数据的特性 推送的方式: 实时查询的结果 流计算应用 阅读全文
posted @ 2020-02-29 19:21 神之一招 阅读(380) 评论(0) 推荐(0) 编辑
摘要:Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 阅读全文
posted @ 2020-02-29 17:21 神之一招 阅读(252) 评论(0) 推荐(0) 编辑
摘要:数据仓库中的数据,多数是存储的历史数据, 进入数据仓库之后的数据基本保持不变. HBase 实时的在线业务. Hive High avalibale. Impala 类似 Hive, 但是执行效率更高. Hive操作 创建数据库: create database db01; 创建表: use db0 阅读全文
posted @ 2020-02-29 16:00 神之一招 阅读(273) 评论(0) 推荐(0) 编辑
摘要:MapReduce: 分布式并行编程, 也就是多台机器的 CPU 之间的并行编程. MapReduce 帮你自动实现底层. 分而治之的策略: 理念: 实例: 两个文件, 统计这两个文件中单词的个数 key:单词, value:出现次数 reduce: key - value list. 用 Iter 阅读全文
posted @ 2020-02-29 13:58 神之一招 阅读(184) 评论(0) 推荐(0) 编辑
摘要:HBase 可以理解为是一个分布式存储系统, 利用MapReduce 来处理存储在这个分布式存储系统中的数据. 所以可以理解为它是 HDFS 的一层抽象. 所以HBase 可以理解为是一个分布式系统(DB), 但是实际上内存存储的实现是通过 HDFS 实现的. HBase 特点: 是 BigTabl 阅读全文
posted @ 2020-02-29 12:31 神之一招 阅读(92) 评论(0) 推荐(0) 编辑
摘要:JobTracker 分配工作给若干机器. TaskTracker: 负责监督 光纤交换机. 块的概念: 一个块 64M. 还可以是 128M. 大文件切割成这种小块, 然后分布存储在不同机器上. 当然也可以并行处理. 名称节点: 整个 HDFS 集群管家, 负责元数据的存储. (index 数据块 阅读全文
posted @ 2020-02-29 11:48 神之一招 阅读(155) 评论(0) 推荐(0) 编辑
摘要:Hadoop HDFS :分布式存储 MapReduce: 分布式海量数据处理. Hadoop 在企业中的应用 MR : MapReduce 的简称. Apache Hadoop 版本 Hadoop 2.0 架构与1.0版本差距很大. 还有一些 Hadoop 的商业版本, 别的公司出的, Horto 阅读全文
posted @ 2020-02-26 16:56 神之一招 阅读(169) 评论(0) 推荐(0) 编辑
摘要:大数据 核心 分布式存储 分布式处理 大数据关键技术 大数据, 云计算, 物联网 关系 云计算: 虚拟化, 多租户, 云计算是通过网络以服务的方式为用户提供非常廉价的IT资源. 阿里云, 百度云 等. (公有云, 私有云, 混合云) 物联网: IoT (internet of things), 各种 阅读全文
posted @ 2020-02-26 15:04 神之一招 阅读(197) 评论(0) 推荐(0) 编辑
摘要:神经网络 线性不可分: 不能被一条线分割, 异或就是线性不可分. 中间一个与门, 下边是一个或门,上边一个与非门. 增加一层神经网络之后, 问题变得简单了,只需要与门的一条线,就可以分割。 内涵的思想就是把一个复杂的问题做一个转换,转换成简单的问题. 注意下图的坐标轴已经变了. 到底是买牛奶 -> 阅读全文
posted @ 2020-02-18 22:18 神之一招 阅读(939) 评论(0) 推荐(0) 编辑
摘要:特征选择 (属性选择) 决策树-分类 <input, output> 有监督的学习, output 可以是boolean. training a classifer 贝叶斯定理 A,B 各射击一枪, 已知命中了靶子C, 问 A 命中的概率? 这个题: P(A) = 0.6, P(B) = 0.5, 阅读全文
posted @ 2020-02-18 16:59 神之一招 阅读(95) 评论(0) 推荐(0) 编辑
摘要:Book 数据挖掘概念与技术 模式分析 beautiful data WEKA 有很多挖掘的工具(算法j集成) KDnuggets 是网站,有很多论文,数据 Big data 大数据的定义: high-volume, high-veiocity and high-variety 应用领域 公共安全领 阅读全文
posted @ 2020-02-18 14:08 神之一招 阅读(250) 评论(0) 推荐(0) 编辑
摘要:大数据 TB 级以上. 目前关系型数据库支持百万级数据没有问题. 大数据的主要目的和流程: 透过大量的数据, 分析出数据模型进而指导业务. 从目的看, 主要有以下流程: 首先将数据收集 -> 大数据(高可用存储) -> 研究数据(数据分析的计算能力) -> 展示结果 大数据的基本生态 来源: goo 阅读全文
posted @ 2020-02-13 15:08 神之一招 阅读(309) 评论(0) 推荐(0) 编辑