摘要:
1.数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。 一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。 整个过程,如图所示。 我们先做一些类似数据同步的工作将数据放入到大数据系统中 数据进来后需要管理和存储 阅读全文
摘要:
一、yarn的架构 二、yarn的工作机制 (0)Mr 程序提交到客户端所在的节点。 (1)Yarnrunner 向 Resourcemanager 申请一个 Application。 (2)rm 将该应用程序的资源路径返回给 yarnrunner。 (3)该程序将运行所需资源提交到 HDFS 上。 阅读全文
摘要:
一、概念 Zookeeper 是 一个典型的分布式数据一致性的解决方案. 1、zookeeper有两种运行模式: 集群模式和单机模式,还有一种伪集群模式,在单机模式下模拟集群的zookeeper服务 2、Zookeeper的典型应用场景: 数据发布/订阅 负载均衡 命名服务 分布式协调/通知 集群管 阅读全文
摘要:
一、HDFS 架构 Hadoop 主要由HDFS(Hadoop Distributed File System)和MapReduce 引擎两部分组成。最底部是HDFS,它存储Hadoop 集群中所有存储节点上的文件。 HDFS 可以执行的操作有创建、删除、移动或重命名文件等,架构类似于传统的分级文件 阅读全文
摘要:
一、简介 HDFS(Hadoop Distributed File System)是GFS的开源实现。 1.优点: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性 流式数据访问,而不是随机读写 面向大规模数据集,能够进行批处理、能够横向扩展 简单一致性模型,假定文件是一次写入、多次读取 2.缺 阅读全文
摘要:
学而不思则罔,一眨眼已经工作四年多了,除了感叹时间过的真快外,感觉自己对技术的掌握很乱,主要在于之前在中小型公司工作,对技术的要求是全而不深,要求你啥都要懂。领导说到一个技术,你就得去学去用,当然一个人的精力有限,学的全面了当然就不精通了。 回顾一下这些年用过的技术: 一、开发语言java,scal 阅读全文
摘要:
1.显示所有连接 #nmcli con show 2.连接网络 #nmcli con up ens33 这个ens33是通过第一步查到的 /etc/sysconfig/network-scripts目录下会有相关文件 阅读全文
摘要:
函数分类: 关联匹配类 清洗处理类 逻辑运算类 计算统计类 时间序列类 关联匹配类 清洗处理类 逻辑运算类 计算统计类 时间序列类 一、关联匹配类 经常性的,需要的数据不在同一个excel表或同一个excel表不同sheet中,数据太多,copy麻烦也不准确,如何整合呢?这类函数就是用于多表关联或者 阅读全文
摘要:
按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类。 按照分类要求的不同,文本分类主要可以分为二分类,多分类,多标签分类三大类 阅读全文
摘要:
Windows服务 连接与断开服务器 数据库操作 表的操作 数据操作 字符集编码 数据类型(列类型) 选择类型 列属性(列约束) 建表规范 SELECT UNION 子查询 连接查询(join) 导出 INSERT DELETE TRUNCATE 备份与还原 视图 事务(transaction) 锁 阅读全文
摘要:
隐马尔可夫模型(HMM,hidden Markov model)是可用于标注问题的统计学模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。HMM模型主要用于语音识别,自然语言处理,生物信息,模式识别等领域。 引入 某天,你的女神告诉你说,她放假三天,将要去上海游玩,准备去欢乐谷、迪士 阅读全文
摘要:
做文本分类等问题的时,需要从大量语料中提取特征,并将这些文本特征变换为数值特征。常用的有词袋模型和TF-IDF 模型 1.词袋模型 词袋模型是最原始的一类特征集,忽略掉了文本的语法和语序,用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解,把整个文档集的所有出现的词都丢进袋子里面,然后无序 阅读全文
摘要:
1. 到网站 http://idea.lanyus.com/ 获取注册码。 2.填入下面的license server: http://intellij.mandroid.cn/ http://idea.imsxm.com/ http://idea.iteblog.com/key.php 阅读全文
摘要:
一、中文分词的介绍 中文分词就是通过计算机将句子转化成词的表示,自动识别句子中的词,在词与词之间加入边界分隔符,分割出各个词汇。 中文分词有两大难点: 1.歧义 原文:以前喜欢一个人,现在喜欢一个人 这里有两个「一个人」,但是代表的意思完全不一样。 2.分词界限 原文:这杯水还没有冷 分词一: 这 阅读全文
摘要:
做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 一、什么是自然语言处理 一、什么是自然语言处理 一 阅读全文
摘要:
一、使用sbt引入hbase依赖包 二、检查hbase中是否存在某表 三、将dataframe写入hbase 阅读全文
摘要:
1. 什么是激活函数 在神经网络中,我们经常可以看到对于某一个隐藏层的节点,该节点的激活值计算一般分为两步: (1)输入该节点的值为 x1,x2x1,x2 时,在进入这个隐藏节点后,会先进行一个线性变换,计算出值 上标 1表示第 1 层隐藏层。 2. 常用的激活函数 在深度学习中,常用的激活函数主要 阅读全文
摘要:
Scala 为我们提供了三种字符串插值的方式,分别是 s, f 和 raw。它们都是定义在 StringContext 中的方法。 s 字符串插值器 val a = 2println(s"小明今年$a 岁了") f 字符串插值器 它除 s 的功能外(不指定格式就和 s 一样),还能进行格式化输出,在 阅读全文
摘要:
1、SQL是声明式的 开头就直接声明你要查询的数据,也就是你想显示的结果 2、SQL语法不是“有序的” 造成混淆的一个常见原因是SQL的语法元素不是按照他们的执行顺序排列的,常见语句顺序如下: SELECT [ DISTINCT ]:指定要显示的属性列 FROM:说明要查询的数据来自那个/些表 WH 阅读全文
摘要:
在这里主要讨论两种归一化方法: 1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围,归一化公式如下: 该方法实现对原始数据的等比例缩放,其中Xnorm为归一化后的数据,X为原始数据,Xmax、Xmin分别为原始数据集的最大值和最小值。 pyth 阅读全文