飞末 - 博客园

[置顶] 数据治理小结

摘要： 1.数据治理的核心工作：在企业的数据建设进程中，保障企业的数据资产得到正确有效地管理。一般来说，数据从外部或者内部产生后，经过大数据手段处理，流转到不同的业务端，为企业的上层应用提供数据赋能。整个过程，如图所示。我们先做一些类似数据同步的工作将数据放入到大数据系统中数据进来后需要管理和存储阅读全文

posted @ 2024-02-23 16:19 飞末阅读(126) 评论(0) 推荐(0)

2020年3月23日

yarn架构

摘要：一、yarn的架构二、yarn的工作机制（0）Mr 程序提交到客户端所在的节点。（1）Yarnrunner 向 Resourcemanager 申请一个 Application。（2）rm 将该应用程序的资源路径返回给 yarnrunner。（3）该程序将运行所需资源提交到 HDFS 上。阅读全文

posted @ 2020-03-23 10:53 飞末阅读(368) 评论(0) 推荐(0)

2020年3月22日

zookeeper总结

摘要：一、概念 Zookeeper 是一个典型的分布式数据一致性的解决方案. 1、zookeeper有两种运行模式：集群模式和单机模式,还有一种伪集群模式,在单机模式下模拟集群的zookeeper服务 2、Zookeeper的典型应用场景: 数据发布/订阅负载均衡命名服务分布式协调/通知集群管阅读全文

posted @ 2020-03-22 22:19 飞末阅读(586) 评论(0) 推荐(0)

2020年3月21日

HDFS的架构

摘要：一、HDFS 架构 Hadoop 主要由HDFS（Hadoop Distributed File System）和MapReduce 引擎两部分组成。最底部是HDFS，它存储Hadoop 集群中所有存储节点上的文件。 HDFS 可以执行的操作有创建、删除、移动或重命名文件等，架构类似于传统的分级文件阅读全文

posted @ 2020-03-21 21:25 飞末阅读(1183) 评论(0) 推荐(0)

HDFS的读写流程

摘要：一、简介 HDFS（Hadoop Distributed File System）是GFS的开源实现。 1.优点：能够运行在廉价机器上，硬件出错常态，需要具备高容错性流式数据访问，而不是随机读写面向大规模数据集，能够进行批处理、能够横向扩展简单一致性模型，假定文件是一次写入、多次读取 2.缺阅读全文

posted @ 2020-03-21 20:10 飞末阅读(7774) 评论(0) 推荐(0)

2020年3月7日

写在2020年初的一些回顾和今年的目标

摘要：学而不思则罔，一眨眼已经工作四年多了，除了感叹时间过的真快外，感觉自己对技术的掌握很乱，主要在于之前在中小型公司工作，对技术的要求是全而不深，要求你啥都要懂。领导说到一个技术，你就得去学去用，当然一个人的精力有限，学的全面了当然就不精通了。回顾一下这些年用过的技术：一、开发语言java，scal 阅读全文

posted @ 2020-03-07 22:50 飞末阅读(324) 评论(0) 推荐(1)

2019年11月25日

centos7默认安装没有连接网络

摘要： 1.显示所有连接 #nmcli con show 2.连接网络 #nmcli con up ens33 这个ens33是通过第一步查到的 /etc/sysconfig/network-scripts目录下会有相关文件阅读全文

posted @ 2019-11-25 14:50 飞末阅读(936) 评论(0) 推荐(0)

2019年3月1日

excel一些常用的函数

摘要：函数分类：关联匹配类清洗处理类逻辑运算类计算统计类时间序列类关联匹配类清洗处理类逻辑运算类计算统计类时间序列类一、关联匹配类经常性的，需要的数据不在同一个excel表或同一个excel表不同sheet中，数据太多，copy麻烦也不准确，如何整合呢？这类函数就是用于多表关联或者阅读全文

posted @ 2019-03-01 10:54 飞末阅读(1275) 评论(0) 推荐(0)

2019年2月14日

中文邮件分类

摘要：按照分类要求的不同，文本分类主要可以分为二分类，多分类，多标签分类三大类。按照分类要求的不同，文本分类主要可以分为二分类，多分类，多标签分类三大类。按照分类要求的不同，文本分类主要可以分为二分类，多分类，多标签分类三大类。按照分类要求的不同，文本分类主要可以分为二分类，多分类，多标签分类三大类阅读全文

posted @ 2019-02-14 15:47 飞末阅读(1302) 评论(0) 推荐(0)

mysql笔记

摘要： Windows服务连接与断开服务器数据库操作表的操作数据操作字符集编码数据类型（列类型）选择类型列属性（列约束）建表规范 SELECT UNION 子查询连接查询(join) 导出 INSERT DELETE TRUNCATE 备份与还原视图事务(transaction) 锁阅读全文

posted @ 2019-02-14 15:33 飞末阅读(181) 评论(0) 推荐(0)

隐马尔可夫模型及Viterbi算法

摘要：隐马尔可夫模型（HMM，hidden Markov model）是可用于标注问题的统计学模型，描述由隐藏的马尔可夫链随机生成观测序列的过程，属于生成模型。HMM模型主要用于语音识别，自然语言处理，生物信息，模式识别等领域。引入某天，你的女神告诉你说，她放假三天，将要去上海游玩，准备去欢乐谷、迪士阅读全文

posted @ 2019-02-14 15:22 飞末阅读(560) 评论(0) 推荐(0)

2019年2月12日

词袋和 TF-IDF 模型

摘要：做文本分类等问题的时，需要从大量语料中提取特征，并将这些文本特征变换为数值特征。常用的有词袋模型和TF-IDF 模型 1.词袋模型词袋模型是最原始的一类特征集，忽略掉了文本的语法和语序，用一组无序的单词序列来表达一段文字或者一个文档。可以这样理解，把整个文档集的所有出现的词都丢进袋子里面，然后无序阅读全文

posted @ 2019-02-12 16:48 飞末阅读(1988) 评论(0) 推荐(0)

2019年2月11日

IntelliJ Idea 免费激活方法免激活码

摘要： 1. 到网站 http://idea.lanyus.com/ 获取注册码。 2.填入下面的license server: http://intellij.mandroid.cn/ http://idea.imsxm.com/ http://idea.iteblog.com/key.php 阅读全文

posted @ 2019-02-11 17:17 飞末阅读(1185) 评论(0) 推荐(0)

中文分词

摘要：一、中文分词的介绍中文分词就是通过计算机将句子转化成词的表示，自动识别句子中的词，在词与词之间加入边界分隔符，分割出各个词汇。中文分词有两大难点： 1.歧义原文：以前喜欢一个人，现在喜欢一个人这里有两个「一个人」，但是代表的意思完全不一样。 2.分词界限原文：这杯水还没有冷分词一：这阅读全文

posted @ 2019-02-11 16:58 飞末阅读(1399) 评论(0) 推荐(0)

2019年2月4日

NLP基础

摘要：做一个中文文本分类任务，首先要做的是文本的预处理，对文本进行分词和去停用词操作，来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇（像是：的、地、得等）。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。一、什么是自然语言处理一、什么是自然语言处理一阅读全文

posted @ 2019-02-04 19:35 飞末阅读(781) 评论(0) 推荐(1)

2018年11月23日

当spark遇见hbase

摘要：一、使用sbt引入hbase依赖包二、检查hbase中是否存在某表三、将dataframe写入hbase 阅读全文

posted @ 2018-11-23 09:31 飞末阅读(382) 评论(0) 推荐(0)

2018年11月13日

激活函数

摘要： 1. 什么是激活函数在神经网络中，我们经常可以看到对于某一个隐藏层的节点，该节点的激活值计算一般分为两步：（1）输入该节点的值为 x1,x2x1,x2 时，在进入这个隐藏节点后，会先进行一个线性变换，计算出值上标 1表示第 1 层隐藏层。 2. 常用的激活函数在深度学习中，常用的激活函数主要阅读全文

posted @ 2018-11-13 14:27 飞末阅读(491) 评论(0) 推荐(0)

2018年11月12日

scala的插值器

摘要： Scala 为我们提供了三种字符串插值的方式，分别是 s, f 和 raw。它们都是定义在 StringContext 中的方法。 s 字符串插值器 val a = 2println(s"小明今年$a 岁了") f 字符串插值器它除 s 的功能外(不指定格式就和 s 一样)，还能进行格式化输出，在阅读全文

posted @ 2018-11-12 15:08 飞末阅读(1116) 评论(0) 推荐(0)

2018年11月5日

sql语句基础

摘要： 1、SQL是声明式的开头就直接声明你要查询的数据，也就是你想显示的结果 2、SQL语法不是“有序的” 造成混淆的一个常见原因是SQL的语法元素不是按照他们的执行顺序排列的，常见语句顺序如下： SELECT [ DISTINCT ]：指定要显示的属性列 FROM：说明要查询的数据来自那个/些表 WH 阅读全文

posted @ 2018-11-05 16:16 飞末阅读(380) 评论(0) 推荐(0)

2018年10月28日

机器学习中的归一化方法

摘要：在这里主要讨论两种归一化方法： 1、线性函数归一化(Min-Max scaling) 线性函数将原始数据线性化的方法转换到[0 1]的范围，归一化公式如下：该方法实现对原始数据的等比例缩放，其中Xnorm为归一化后的数据，X为原始数据，Xmax、Xmin分别为原始数据集的最大值和最小值。 pyth 阅读全文

posted @ 2018-10-28 19:57 飞末阅读(3126) 评论(0) 推荐(0)

飞末

公告