DUDUDA

2019年4月10日

摘要： "leetcode" 阅读全文

posted @ 2019-04-10 17:13 DUDUDA 阅读(166) 评论(0) 推荐(0) 编辑

2019年3月18日

摘要：卷积尺度变化输入矩阵格式: 样本数目，图像高度，图像宽度，图像通道数卷积之后矩阵格式: 样本数目，图像高度，图像宽度，图像通道数（后三个维度在卷积之后会发生变化）权重矩阵（卷积核的格式:卷积核高度，卷积核宽度，输入通道数，输出通道数（以RGB为例，每个通道对应自己的一个权重矩阵），输出通道数阅读全文

posted @ 2019-03-18 14:02 DUDUDA 阅读(4836) 评论(0) 推荐(0) 编辑

2019年3月15日

如何在hadoop中使用外部的python程序文件

摘要：业务场景大概是这样，我需要在公司hadoop集群上对博文进行结巴分词。我的数据是存储在hive表格中的,数据量涉及到五百万用户三个月内发的所有博文。首先对于数据来说，很简单，在hive表格中就是两列，一列代表的是uid，一列代表的是博文内容。举个例子如下: 对于hive表格，我在使用hadoop的阅读全文

posted @ 2019-03-15 12:30 DUDUDA 阅读(2221) 评论(0) 推荐(0) 编辑

hive-show-partitions

摘要：展示分区命令 show partitions show partitions 可以展示这个表格之下的所有分区信息。这个命令常常用在使用SQL语句操作数据之前。举个简单的例子，如果我们想要根据uid融合两个hive表格，那么在筛选数据的时候用到分区dt(datetime)以确保融合的数据是在同一天阅读全文

posted @ 2019-03-15 12:29 DUDUDA 阅读(26742) 评论(0) 推荐(2) 编辑

hive的load命令

摘要： Hive Load语句不会在加载数据的时候做任何转换工作，而是纯粹的把数据文件复制/移动到Hive表对应的地址。语法描述如果命令中带有LOCAL，说明从本地文件系统加载数据，文件路径可以是相对路径，也可以是绝对路径。在这种情况下，首先将文件从本地复制到hdfs相应的位置，然后移动到hive表格阅读全文

posted @ 2019-03-15 12:28 DUDUDA 阅读(7624) 评论(0) 推荐(0) 编辑

hive的desc命令

摘要： desc命令 desc 命令是为了展示hive表格的内在属性。例如列名，data_type，存储位置等信息.这个命令常常用在我们对hive表格观察之时，我们想要知道这个hive各个列名(基于这些具体列名我们才可以使用sql语句挑选数据)，hive表格的存储位置(有些时候我们需要查看locatio 阅读全文

posted @ 2019-03-15 12:26 DUDUDA 阅读(12001) 评论(0) 推荐(1) 编辑

hive表格取差集

摘要： hive 求两个集合的差集业务场景是这样的，这里由两个hive表格A和B A的形式大概是这样的:uid B的形式大概是这样的:uid 我想要得到存在A中但是不存在B中的uid 具体代码如下在这里我要穿插一个非常重要的知识点，在A和Bjoin(不管是哪种join)，在对结果表格取数据的时候，我们不阅读全文

posted @ 2019-03-15 12:25 DUDUDA 阅读(2529) 评论(0) 推荐(0) 编辑

使用union all 命令之后如何对hive表格进行去重

摘要：业务场景大概是这样的，这里由两个hive表格，tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中，我们知道union有着自动去重的功能，但是那是真对几行内容完全一致的情况下才可以。现在我们要进行去重的情况是根据uid进行去重。也就是说可能存在阅读全文

posted @ 2019-03-15 12:24 DUDUDA 阅读(3146) 评论(0) 推荐(0) 编辑

使用shell脚本依据分区信息分批次的下载hive表格数据

摘要：今天的业务场景大概是这样的，我想把hive表格下载到本地文件系统，然后把这个文件传送到另一个服务器上。但是这个业务场景一个核心问题就是说我本地机器内存有限，hive表格大概是70G，我是不可能全部下载到本地的。这个时候我想到的一个方法就是依靠分区实现这个目的。首先这个hive表格的内容大概是这样阅读全文

posted @ 2019-03-15 12:23 DUDUDA 阅读(492) 评论(0) 推荐(0) 编辑

使用python写一个最基本的mapreduce程序

摘要：一个mapreduce程序大致分成三个部分，第一部分是mapper文件，第二个就是reducer文件，第三部分就是使用hadoop command 执行程序。在这个过程中，困惑我最久的一个问题就是在hadoop command中hadoop streaming 也就是streaming jar包的阅读全文

posted @ 2019-03-15 12:22 DUDUDA 阅读(1955) 评论(0) 推荐(0) 编辑

公告