摘要: 业务场景大概是这样,我需要在公司hadoop集群上对博文进行结巴分词。我的数据是存储在hive表格中的,数据量涉及到五百万用户三个月内发的所有博文。 首先对于数据来说,很简单,在hive表格中就是两列,一列代表的是uid,一列代表的是博文内容。举个例子如下: 对于hive表格,我在使用hadoop的 阅读全文
posted @ 2019-03-15 12:30 DUDUDA 阅读(2203) 评论(0) 推荐(0) 编辑
摘要: 展示分区命令 show partitions show partitions 可以展示这个表格之下的所有分区信息。这个命令常常用在使用SQL语句操作数据之前。举个简单的例子,如果我们想要根据uid融合两个hive表格,那么在筛选数据的时候用到分区dt(datetime)以确保融合的数据是在同一天 阅读全文
posted @ 2019-03-15 12:29 DUDUDA 阅读(26211) 评论(0) 推荐(2) 编辑
摘要: Hive Load语句不会在加载数据的时候做任何转换工作,而是纯粹的把数据文件复制/移动到Hive表对应的地址。 语法 描述 如果命令中带有LOCAL,说明从本地文件系统加载数据,文件路径可以是相对路径,也可以是绝对路径。在这种情况下,首先将文件从本地复制到hdfs相应的位置,然后移动到hive表格 阅读全文
posted @ 2019-03-15 12:28 DUDUDA 阅读(7589) 评论(0) 推荐(0) 编辑
摘要: desc命令 desc 命令是为了展示hive表格的内在属性。例如列名,data_type,存储位置等信息.这个命令常常用在我们对hive表格观察之时,我们想要知道这个hive各个列名(基于这些具体列名我们才可以使用sql语句挑选数据),hive表格的存储位置(有些时候我们需要查看locatio 阅读全文
posted @ 2019-03-15 12:26 DUDUDA 阅读(11915) 评论(0) 推荐(1) 编辑
摘要: hive 求两个集合的差集 业务场景是这样的,这里由两个hive表格A和B A的形式大概是这样的:uid B的形式大概是这样的:uid 我想要得到存在A中但是不存在B中的uid 具体代码如下 在这里我要穿插一个非常重要的知识点,在A和Bjoin(不管是哪种join),在对结果表格取数据的时候,我们不 阅读全文
posted @ 2019-03-15 12:25 DUDUDA 阅读(2513) 评论(0) 推荐(0) 编辑
摘要: 业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。 也就是说可能存在 阅读全文
posted @ 2019-03-15 12:24 DUDUDA 阅读(3118) 评论(0) 推荐(0) 编辑
摘要: 今天的业务场景大概是这样的,我想把hive表格下载到本地文件系统,然后把这个文件传送到另一个服务器上。 但是这个业务场景一个核心问题就是说我本地机器内存有限,hive表格大概是70G,我是不可能全部下载到本地的。这个时候我想到的一个方法就是依靠分区实现这个目的。 首先这个hive表格的内容大概是这样 阅读全文
posted @ 2019-03-15 12:23 DUDUDA 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 一个mapreduce程序大致分成三个部分,第一部分是mapper文件,第二个就是reducer文件,第三部分就是使用hadoop command 执行程序。 在这个过程中,困惑我最久的一个问题就是在hadoop command中hadoop streaming 也就是streaming jar包的 阅读全文
posted @ 2019-03-15 12:22 DUDUDA 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: 业务场景大概是这样的,我要对用户博文进行分词(这个步骤可以看这篇文章 "如何在hive调用python的时候使用第三方不存在的库 how to use external python library in hadoop" ) 然后在对每条博文进行分词之后呢,我需要做的就是对分词之后的结果去除停用词, 阅读全文
posted @ 2019-03-15 12:21 DUDUDA 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 今天的一个业务场景就是要把三年的数据从第一天不停的融合起来,每一天作为表格一个新的分区。由于空间有限,数据量很大,可能每天数据都是几十个G的大小。所以我需要做的一点就是在融合这一天之后,删除一天的分区数据,为了保险起见,我删除这一天的前三天的数据。 大致代码是这样的 shell function s 阅读全文
posted @ 2019-03-15 12:19 DUDUDA 阅读(3898) 评论(0) 推荐(0) 编辑
摘要: 主要是参考这里,写的很好 "PyTorch 入门实战(四)——利用Torch.nn构建卷积神经网络" 1. 卷积层nn.Con2d() 常用参数 in_channels:输入通道数 out_channels:输出通道数 kernel_size:滤波器(卷积核)大小,宽和高相等的卷积核可以用一个数字表 阅读全文
posted @ 2019-03-15 12:06 DUDUDA 阅读(1337) 评论(0) 推荐(0) 编辑
摘要: 不涉及具体代码,只是记录一下自己的疑惑。 我们知道对于在pytorch中,我们通过构建一个词向量矩阵对象。这个时候对象矩阵是随机初始化的,然后我们的输入是单词的数值表达,也就是一些索引。那么我们会根据索引,赋予每个单词独一无二的一个词向量表达。在其后的神经网络训练过程中,每个单词对应独一无二的索引, 阅读全文
posted @ 2019-03-15 12:05 DUDUDA 阅读(5703) 评论(2) 推荐(1) 编辑
摘要: pytorch中的词向量的使用 在pytorch我们使用nn.embedding进行词嵌入的工作。 具体用法就是: 在torch.nn.Embedding的源代码中,它是这么解释, This module is often used to store word embeddings and retr 阅读全文
posted @ 2019-03-15 12:04 DUDUDA 阅读(2583) 评论(0) 推荐(1) 编辑
摘要: 我之前大致写了一篇在pytorch中如何自己定义数据集合,在这里 "如何自定义数据集" 不过这个例子使用的是image,也就是图像。如果我们用到的是文本呢,处理的是NLP问题呢? 在解决这个问题的时候,我在网上无意间搜索到这样一篇文章 "PyTorch 入门实战(三)——Dataset和DataLo 阅读全文
posted @ 2019-03-15 12:02 DUDUDA 阅读(1344) 评论(0) 推荐(0) 编辑
摘要: pytorch读取图片,主要是通过Dataset类。 Dataset类源代码如下: python class Dataset(object): """An abstract class representing a Dataset. All other datasets should subclas 阅读全文
posted @ 2019-03-15 12:02 DUDUDA 阅读(1725) 评论(0) 推荐(0) 编辑
摘要: 他还写了一篇关于transformer的可以看一看 "transfromer" 阅读全文
posted @ 2019-03-15 11:58 DUDUDA 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 首先介绍一下 encoder decoder 框架 中文叫做编码 解码器,它一个最抽象的模式可以用下图来展现出来: 这个框架模式可以看做是RNN的一个变种:N vs M,叫做Encoder Decoder模型,也可以称之为Seq2Seq模型。 原始的N vs N RNN要求序列等长,然而我们遇到的大 阅读全文
posted @ 2019-03-15 11:48 DUDUDA 阅读(1621) 评论(0) 推荐(0) 编辑
摘要: "这个论文讲述了attention机制的发展历史以及在发展过程的变体 注意力机制(Attention Mechanism)在自然语言处理中的应用" 上面那个论文提到attention在CNN中应用,有一个模型叫做ABCNN模型,我找到了相应的博文解释,写的还是不错的,可以看一下 "这里 《ABCN 阅读全文
posted @ 2019-03-15 11:37 DUDUDA 阅读(4898) 评论(1) 推荐(3) 编辑
摘要: Hierarchical Attention Networks for Document Classification 论文的理解 在论文的摘要中,它提出了论文的两个特点。第一个就是对应文章所有具有的分层结构,这个模型采取了相应的分层结构。这个文章的分层结构怎么理解呢? 文章是具有分层结构的,单词构 阅读全文
posted @ 2019-03-15 11:36 DUDUDA 阅读(1041) 评论(0) 推荐(0) 编辑
摘要: HAN 模型 最开始看这个模型是看的这个解释: RNN+Attention(HAN) 文本分类 阅读笔记 今天做作业没的文章 知乎 https://zhuanlan.zhihu.com/p/42121435 Hierarchical Attention Networks for Document C 阅读全文
posted @ 2019-03-15 11:35 DUDUDA 阅读(1931) 评论(0) 推荐(0) 编辑