摘要:
pandas.DataFrame.join 自己弄了很久,一看官网。感觉自己宛如智障。不要脸了,直接抄 Join columns with other DataFrame either on index or on a key column. Efficiently Join multiple Da 阅读全文
摘要:
二、merge:通过键拼接列 类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来。 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。 参数介绍: left和right:两个不同的DataFrame; how:连接方式,有inner 阅读全文
摘要:
一、concat:沿着一条轴,将多个对象堆叠到一起 objs:需要连接的对象集合,一般是列表或字典; axis:连接轴向; join:参数为‘outer’或‘inner’; join_axes=[]:指定自定义的索引; keys=[]:创建层次化索引; ignore_index=True:重建索引 阅读全文
摘要:
1. 原始表 数据清洗后的表 3.数据导入 4.脚本编写和脚本加载 然后 hdfs dfs -put 5.数据清洗+转储 然后我就失败了 阅读全文
摘要:
方法一:使用pyhive库 如上图所示我们需要四个外部包 中间遇到很多报错。我都一一解决了 1.Connection Issue: thrift.transport.TTransport.TTransportException: TSocket read 0 bytes 2.安装sasl 遇到Mic 阅读全文
摘要:
1.首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到对应版本的Twisted并下载到你的文件夹。此例为Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl 2.利用pip install命令安装指定存储路径 阅读全文
摘要:
在运行hive命令时传入参数,使用-hivevar 和 -hiveconf 两种参数选项,来给此次的执行脚本传入参数 -hivevar : 传参数 ,专门提供给用户自定义变量。 -hiveconf : 传参数,包括了hive-site.xml中配置的hive全局变量。 (1)脚本调用 test.sq 阅读全文
摘要:
在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量; log1p的使用 阅读全文
摘要:
windows修改host文件: C:\Windows\System32\drivers\etc\hostslinux 修改host文件: /etc/hosts 在文件后面加上这两行 贼快 阅读全文
摘要:
mysql中的函数,字符串拼接的话,可以用concat(),但是此函数是针对一条记录中,可以将不同的字段拼接,并不适用多条记录的某一字段。 mysql中group_concat函数多条记录的某一字段拼接。需要和group by一起使用 不和group by一起使用 阅读全文