wqbin - 博客园

2019年2月12日

Pandas中DataFrame数据合并、连接（concat、merge、join）之join

摘要： pandas.DataFrame.join 自己弄了很久，一看官网。感觉自己宛如智障。不要脸了，直接抄 Join columns with other DataFrame either on index or on a key column. Efficiently Join multiple Da 阅读全文

posted @ 2019-02-12 00:03 wqbin 阅读(4217) 评论(0) 推荐(0)

2019年2月11日

Pandas中DataFrame数据合并、连接（concat、merge、join）之merge

摘要：二、merge：通过键拼接列类似于关系型数据库的连接方式，可以根据一个或多个键将不同的DatFrame连接起来。该函数的典型应用场景是，针对同一个主键存在两张不同字段的表，根据主键整合到一张表里面。参数介绍： left和right：两个不同的DataFrame； how：连接方式，有inner 阅读全文

posted @ 2019-02-11 23:56 wqbin 阅读(37310) 评论(0) 推荐(0)

Pandas中DataFrame数据合并、连接（concat、merge、join）之concat

摘要：一、concat：沿着一条轴，将多个对象堆叠到一起 objs：需要连接的对象集合，一般是列表或字典； axis：连接轴向； join：参数为‘outer’或‘inner’； join_axes=[]：指定自定义的索引； keys=[]：创建层次化索引； ignore_index=True：重建索引阅读全文

posted @ 2019-02-11 23:12 wqbin 阅读(4116) 评论(0) 推荐(0)

使用python脚本进行数据清洗（1）

摘要： 1. 原始表数据清洗后的表 3.数据导入 4.脚本编写和脚本加载然后 hdfs dfs -put 5.数据清洗+转储然后我就失败了阅读全文

posted @ 2019-02-11 20:42 wqbin 阅读(2049) 评论(0) 推荐(0)

python操作hive 安装和测试

摘要：方法一：使用pyhive库如上图所示我们需要四个外部包中间遇到很多报错。我都一一解决了 1.Connection Issue: thrift.transport.TTransport.TTransportException: TSocket read 0 bytes 2.安装sasl 遇到Mic 阅读全文

posted @ 2019-02-11 14:31 wqbin 阅读(4789) 评论(0) 推荐(0)

Microsoft Visual C++ 14.0 is required.

摘要： 1.首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted，找到对应版本的Twisted并下载到你的文件夹。此例为Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl 2.利用pip install命令安装指定存储路径阅读全文

posted @ 2019-02-11 12:22 wqbin 阅读(2942) 评论(0) 推荐(0)

hive传递参数与调用

摘要：在运行hive命令时传入参数，使用-hivevar 和 -hiveconf 两种参数选项，来给此次的执行脚本传入参数 -hivevar : 传参数，专门提供给用户自定义变量。 -hiveconf : 传参数，包括了hive-site.xml中配置的hive全局变量。（1）脚本调用 test.sq 阅读全文

posted @ 2019-02-11 10:34 wqbin 阅读(14010) 评论(0) 推荐(0)

2019年2月1日

log1p和expm1

摘要：在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化，使其更加服从高斯分布，此步处理可能会使我们后续的分类结果得到一个更好的结果；平滑处理很容易被忽略掉，导致模型的结果总是达不到一定的标准，同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量； log1p的使用阅读全文

posted @ 2019-02-01 16:42 wqbin 阅读(6089) 评论(0) 推荐(0)

2019年1月31日

github高速下载的方法

摘要： windows修改host文件： C:\Windows\System32\drivers\etc\hostslinux 修改host文件： /etc/hosts 在文件后面加上这两行贼快阅读全文

posted @ 2019-01-31 16:45 wqbin 阅读(1764) 评论(0) 推荐(0)

2019年1月23日

group_concat()

摘要： mysql中的函数，字符串拼接的话，可以用concat()，但是此函数是针对一条记录中，可以将不同的字段拼接，并不适用多条记录的某一字段。 mysql中group_concat函数多条记录的某一字段拼接。需要和group by一起使用不和group by一起使用阅读全文

posted @ 2019-01-23 22:18 wqbin 阅读(235) 评论(0) 推荐(0)

少年阿斌

人类被赋予了一种工作，那就是精神的成长。

公告