随笔档案「2018年4月」 - change_world

深度学习中Embedding层有什么用？

摘要：这篇博客翻译自国外的深度学习系列文章的第四篇，想查看其他文章请点击下面的链接，人工翻译也是劳动，如果你觉得有用请打赏，转载请打赏: 在深度学习实验中经常会遇Eembedding层,然而网络上的介绍可谓是相当含糊。比如 Keras中文文档中对嵌入层 Embedding的介绍除了一句 “嵌入层将正整数（阅读全文

posted @ 2018-04-28 14:17 change_world 阅读(28951) 评论(0) 推荐(4)

split("\\s+") 和 split(" +") 有什么区别?

摘要："hello world, this is Al".split("\\s+") 首先要明白split方法的参数含义： split public String[] split(String regex)根据给定的正则表达式的匹配来拆分此字符串。然后就要明确正则表达式的含义了： \\s表示空格,回车阅读全文

posted @ 2018-04-23 16:50 change_world 阅读(5186) 评论(0) 推荐(0)

python merge、concat合并数据集

摘要：数据规整化：合并、清理、过滤 pandas和python标准库提供了一整套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式！本篇博客主要介绍：合并数据集：.merge()、.concat()等方法，类似于SQL或其他关系型数据库的连接操作。合并数据集 1） merge 函数参数 1 阅读全文

posted @ 2018-04-23 15:59 change_world 阅读(7523) 评论(0) 推荐(0)

机器学习中常见的损失函数

摘要：## 机器学习中常见的损失函数一般来说，我们在进行机器学习任务时，使用的每一个算法都有一个目标函数，算法便是对这个目标函数进行优化，特别是在分类或者回归任务中，便是使用损失函数（Loss Function）作为其目标函数，又称为代价函数(Cost Function)。损失函数是用来评价模型的预测阅读全文

posted @ 2018-04-20 10:16 change_world 阅读(1033) 评论(0) 推荐(0)

XGBoost、LightGBM的详细对比介绍

摘要：sklearn集成方法集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是： bagging 基本思想独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树)，然后综合他们的预测结果，通常集成模型的效果会优于阅读全文

posted @ 2018-04-14 09:53 change_world 阅读(1088) 评论(0) 推荐(0)

scikit-learn主要模块和基本使用方法

摘要：从网上看到一篇总结的很不错的sklearn使用文档，备份勿忘。引言对于一些开始搞机器学习算法有害怕下手的小朋友，该如何快速入门，这让人挺挣扎的。在从事数据科学的人中，最常用的工具就是R和Python了，每个工具都有其利弊，但是Python在各方面都相对胜出一些，这是因为scikit-learn库阅读全文

posted @ 2018-04-12 19:56 change_world 阅读(717) 评论(0) 推荐(0)

hive聚合函数

摘要：聚合函数下表为Hive内置的聚合函数。返回类型函数名描述 BIGINT count(*) count(expr) count(DISTINCT expr[, expr_.]) count(*) – 返回检索到的行的总数，包括含有NULL值的行。count(expr) – 返回expr表达式不阅读全文

posted @ 2018-04-11 20:17 change_world 阅读(4797) 评论(0) 推荐(0)

hive计算分位数

摘要：hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的字段必须是int类型的，而percentile_ 阅读全文

posted @ 2018-04-11 20:16 change_world 阅读(12348) 评论(0) 推荐(0)

hive--lag和lead 分析函数

摘要：http://blog.csdn.net/mazongqiang/article/details/7621330 oracle 的分析函数是非常好的一个功能，借助它们，我们可以很方便的实现一些特殊的语句需求，省去了自己实现的诸多麻烦。今天用到了lag 和lead 这两个分析函数，稍稍整理一下。lag 阅读全文

posted @ 2018-04-11 15:01 change_world 阅读(1175) 评论(0) 推荐(0)

分区函数Partition By的与row_number()的用法以及与排序rank()的用法详解(获取分组(分区)中前几条记录)

摘要：partition by关键字是分析性函数的一部分，它和聚合函数不同的地方在于它能返回一个分组中的多条记录，而聚合函数一般只有一条反映统计值的记录，partition by用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，分区函数一般与排名函数一起使用。准备测试数据：一、分区函数Pa 阅读全文

posted @ 2018-04-11 15:00 change_world 阅读(464) 评论(0) 推荐(0)

Hive中生成随机唯一标识ID的方法

摘要：HIVE中处理的数据往往比较多，在处理数据的时候希望给处理得到的数据一个ID标识，这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲，如果一台机器每秒产生10000000个UUID，则可以保证（概率意义上）3240年不重复。UUID 的阅读全文

posted @ 2018-04-11 14:39 change_world 阅读(12903) 评论(0) 推荐(2)

Hive实现自增列的两种方法

摘要：多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数（UD 阅读全文

posted @ 2018-04-11 14:38 change_world 阅读(6285) 评论(0) 推荐(1)

一个非常有用的函数——COALESCE - CSDN博客

摘要：很多人知道ISNULL函数，但是很少人知道Coalesce函数，人们会无意中使用到Coalesce函数，并且发现它比ISNULL更加强大，其实到目前为止，这个函数的确非常有用，本文主要讲解其中的一些基本使用：首先看看联机丛书的简要定义：返回其参数中第一个非空表达式语法： COALESCE ( 阅读全文

posted @ 2018-04-11 10:12 change_world 阅读(37462) 评论(0) 推荐(0)

【Hadoop基础】hadoop fs 命令

摘要：1，hadoop fs –fs [local | <file system URI>]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-defau 阅读全文

posted @ 2018-04-10 19:33 change_world 阅读(943) 评论(0) 推荐(0)

[SQL case when的两种用法]

摘要：当我们需要从数据源上直接判断数据显示代表的含义的时候 ,就可以在SQL语句中使用 Case When这个函数了. Case具有两种格式。简单Case函数和Case搜索函数。第一种格式 : 简单Case函数 : 格式说明 case 列名 when 条件值1 then 选择项1 when 条件值2 阅读全文

posted @ 2018-04-10 18:44 change_world 阅读(5320) 评论(0) 推荐(0)

sql 语句NVL（）用法

摘要：一NVL函数是一个空值转换函数NVL（表达式1，表达式2）如果表达式1为空值，NVL返回值为表达式2的值，否则返回表达式1的值。该函数的目的是把一个空值（null）转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。对数字型： NVL（阅读全文

posted @ 2018-04-10 17:58 change_world 阅读(155188) 评论(0) 推荐(8)

HIVE 时间操作函数

摘要：日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳（从1970-01-01 00:00:00 UTC到指定时间的秒数）到当前时区的时间阅读全文

posted @ 2018-04-10 17:19 change_world 阅读(1009) 评论(0) 推荐(0)

facter用法

摘要：#通过位置 print '{0},{1}'.format('chuhao',20) print '{},{}'.format('chuhao',20) print '{1},{0},{1}'.format('chuhao',20) #通过关键字参数 print '{name},{age}'.form 阅读全文

posted @ 2018-04-10 10:49 change_world 阅读(688) 评论(0) 推荐(0)

sql with as 用法

摘要：以下内容转自：http://wudataoge.blog.163.com/blog/static/80073886200961652022389/ 一．WITH AS的含义 WITH AS短语，也叫做子查询部分（subquery factoring），可以让你做很多事情，定义一个SQL片断，该SQL 阅读全文

posted @ 2018-04-09 14:20 change_world 阅读(282) 评论(0) 推荐(0)

搜索广告 - 不平衡数据 Imbalanced Data

摘要：【IJCAI-2018】搜索广告 - 不平衡数据 Imbalanced Data 我并不擅长做比赛，也不擅长构造特征，也不擅长调参数，也没有服务器可以并行。大家的baseline都比我的模型要好。在这里写这篇文章，主要是想跟大家分享下我对数据的理解，以及我思考的一个大概框架，希望对大家能有那么一点点阅读全文

posted @ 2018-04-09 09:23 change_world 阅读(1802) 评论(0) 推荐(0)

深层复制与浅层复制

摘要：python的复制，深拷贝和浅拷贝的区别在python中，对象赋值实际上是对象的引用。当创建一个对象，然后把它赋给另一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用一般有三种方法， alist=[1,2,3,["a","b"]] （1）直接赋值,传递对象的引用而已,原始阅读全文

posted @ 2018-04-08 19:46 change_world 阅读(754) 评论(0) 推荐(0)

PANDAS 数据合并与重塑

摘要：pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merg 阅读全文

posted @ 2018-04-08 19:28 change_world 阅读(3744) 评论(0) 推荐(0)

Pandas 合并数据集

摘要：在数据挖掘过程中，经常会有不同表格的数据需要进行合并操作。今天介绍通过python下的pandas库下的merge方法和concat方法来实现数据集的合并。 1.merge merge 函数通过一个或多个键来将数据集的行连接起来。该函数的主要应用场景是针对同一个主键存在两张包含不同特征的表，通过该阅读全文

posted @ 2018-04-08 19:27 change_world 阅读(599) 评论(0) 推荐(0)

pandas 样本打乱

摘要：import pandas as pd df = pd.read_excel("window regulator01 _0914新增样本.xlsx") df = df.sample(frac = 1) #打乱样本阅读全文

posted @ 2018-04-08 19:24 change_world 阅读(972) 评论(0) 推荐(0)

sparse 7种格式

摘要：工程实践中，多数情况下，大矩阵一般都为稀疏矩阵，所以如何处理稀疏矩阵在实际中就非常重要。本文以python里中的实现为例，首先来探讨一下稀疏矩阵是如何存储表示的。 1.sparse模块初探 python中scipy模块中，有一个模块叫sparse模块，就是专门为了解决稀疏矩阵而生。本文的大部分内容，阅读全文

posted @ 2018-04-04 19:13 change_world 阅读(1420) 评论(0) 推荐(0)

Python scipy.sparse矩阵使用方法

摘要：本文以csr_matrix为例来说明sparse矩阵的使用方法，其他类型的sparse矩阵可以参考https://docs.scipy.org/doc/scipy/reference/sparse.html csr_matrix是Compressed Sparse Row matrix的缩写组合，下阅读全文

posted @ 2018-04-04 18:57 change_world 阅读(9349) 评论(0) 推荐(0)

数组合并

摘要：列合并/扩展：np.column_stack() 行合并/扩展：np.row_stack() >>> import numpy as np >>> a = np.arange(9).reshape(3,-1) >>> a array([[0, 1, 2], [3, 4, 5], [6, 7, 8]] 阅读全文

posted @ 2018-04-04 16:13 change_world 阅读(278) 评论(0) 推荐(0)

one-hot

摘要：机器学习算法无法直接用于数据分类。数据分类必须转换为数字才能进一步进行。在本教程中，你将发现如何将输入或输出的序列数据转换为一种热编码，以便于你在Python中深度学习的序列分类问题中使用。看完本教程后，你将会了解： · 1.什么是整数编码和One-Hot编码，以及为什么它们在机器学习中是必需的阅读全文

posted @ 2018-04-04 15:40 change_world 阅读(1252) 评论(0) 推荐(0)

change_world

04 2018 档案

公告