2019年9月22日

NLP常用Python开发工具

摘要: 一、Numpy NumPy系统是Python的一种开源的数值计算包。 包括: 1、一个强大的N维数组对象Array; 2、比较成熟的(广播)函数 库; 3、用于整合C/C++和Fortran代码的工具包; 4、实用的线性代数、傅里叶变换和随机数生成函数。 numpy和稀疏矩阵运算包scipy配合使用 阅读全文

posted @ 2019-09-22 23:06 AI数据 阅读(832) 评论(0) 推荐(0) 编辑

Hadoop(三)YARN

摘要: Yet Another Resources Negotiator 从Hadoop2.0版本开始引入YARN,主要功能: 集群资源管理系统 负责集群的统一管理和调度 与客户端交互,处理客户端请求 一、基本架构 Master/Slave架构 资源管理和节点管理器组成 集群的机器启动nodemanager 阅读全文

posted @ 2019-09-22 18:17 AI数据 阅读(361) 评论(0) 推荐(0) 编辑

Hadoop(二)HDFS

摘要: 海量数据处理 分而治之 核心思想: 把数据分发到多个节点 移动计算到数据附近 计算节点进行本地数据处理 优选顺序,次之随机读 一、HDFS概述 修改,先删除,再重新生成 1.架构 namenode维护着HDFS中存储的文件的元数据,以及每个文件块的列表,以及块所在datanode的信息。nameno 阅读全文

posted @ 2019-09-22 16:23 AI数据 阅读(352) 评论(0) 推荐(0) 编辑

2019年9月21日

Flume速览

摘要: Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现,插件丰富,模块分明。 数据流模型:Source-Channel-Sink 事务机制保证了消息传递的可靠性 一、基本组件 Event:消息的基本单位,有header和body组成。header是键值对的形式,bod 阅读全文

posted @ 2019-09-21 19:31 AI数据 阅读(511) 评论(0) 推荐(0) 编辑

Kafka速览

摘要: 一、基本结构 三台机器组成的Kafka集群,每台机器启动一个Kafka进程,即Broker 向broker发送消息的客户端是Producer,拉取消息的客户端是Consumer Producer和Consumer都是用户实现的 broker只负责数据存储,不保存任何Producer和Consumer 阅读全文

posted @ 2019-09-21 14:56 AI数据 阅读(323) 评论(0) 推荐(0) 编辑

分布式消息中间件(二)ActiveMQ

摘要: 一、概述 Apache出品,最流行的,能力强劲的开源消息总线。 1.JMS规范 Java消息服务(Java Message Service,即JMS)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API,用于应用程序之间,或分布式系统中发送消息,进行异步通信。Java消息服务是一个与 阅读全文

posted @ 2019-09-21 12:44 AI数据 阅读(669) 评论(0) 推荐(0) 编辑

2019年9月20日

分布式消息中间件(一)设计

摘要: 中间件 1.概述 应用场景 单体架构 如果一个模块升级,比如订单系统,整个系统都要升级 耦合度高,开发困难 分布式架构 后台由多个系统组成 多系统协同处理一个请求可以看成分布式系统 系统之间相互调用,用RPC远程调用的方式实现 但这样系统之间耦合度相对较高 为了解决耦合,实现更强的扩展性架构,分布式 阅读全文

posted @ 2019-09-20 13:22 AI数据 阅读(1221) 评论(0) 推荐(0) 编辑

大数据算法(一)亚线性算法

摘要: 来源:大数据算法 王宏志 一、概述 大数据定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。 大数据特点:4V 大数据算法可以不是: 精确算法 内存算法 串行算法 仅在电子计算机上运行的算法 大数据算法不仅是: 云计算 MapReduce 大数据分析和挖掘的算 阅读全文

posted @ 2019-09-20 11:15 AI数据 阅读(2843) 评论(0) 推荐(0) 编辑

2019年9月19日

SparkSQL

摘要: 一、概述 组件 运行机制 转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器(原创翻译) 更高效 查询优化 优化:把filte 阅读全文

posted @ 2019-09-19 18:47 AI数据 阅读(233) 评论(0) 推荐(0) 编辑

2019年9月18日

MySQL索引

摘要: 一、索引概念和分类 对数据库表中的一列或者多列的值进行排序的一种结构,旨在提高数据的查询效率。 1.普通索引 不需要添加任何限制条件,可以创建在任何数据类型中,由字段本身的完整性约束决定。 2.唯一索引 使用unique参数进行设置,该值必须是唯一的。主键是一种特殊的唯一索引。 3.全文索引 使用f 阅读全文

posted @ 2019-09-18 23:42 AI数据 阅读(192) 评论(0) 推荐(0) 编辑

导航