02 2019 档案

摘要:如何最有效的判断 一个表中的数据不在另一个表中 两个方法一个是join 另一个是 exist 方法 阅读全文
posted @ 2019-02-21 21:23 wqbin 阅读(1484) 评论(0) 推荐(0)
摘要:问题描述 1、Python开发的程序在使用过程中很慢,想确定下是哪段代码比较慢; 2、Python开发的程序在使用过程中占用内存很大,想确定下是哪段代码引起的; 解决方案 使用profile分析分析cpu使用情况 可以使用profile和cProfile对python程序进行分析,这里主要记录下cP 阅读全文
posted @ 2019-02-18 23:50 wqbin 阅读(3345) 评论(0) 推荐(0)
摘要:属性和方法的动态绑定 定义了一个class,创建了一个class的实例后,我们可以给该实例绑定任何属性和方法,这就是动态语言的灵活性。先定义class: 给实例绑定一个属性: 给实例绑定一个方法: 只是绑定这个单独的对象上,同类的其他实例化的对象的并没有受到影响。 给类绑定一个方法: 看来给类绑定一 阅读全文
posted @ 2019-02-18 14:19 wqbin 阅读(323) 评论(0) 推荐(0)
摘要:1.为什么要使用__slots__ Python 使用 dicts(hash table)缓存大量的静态资源(属性)。 我们最近在Image类中,用仅仅一行__slots__代码,改变成使用tuple储存,可以节约大量内存空间。 为啥呢? 和list相比,dict 查找和插入的速度极快,不会随着ke 阅读全文
posted @ 2019-02-18 11:29 wqbin 阅读(219) 评论(0) 推荐(0)
摘要:super() 函数是用于调用父类(超类)的一个方法。 super 是用来解决多重继承问题的,直接用类名调用父类方法在使用单继承的时候没问题,但是如果使用多继承,会涉及到查找顺序(MRO)、重复调用(钻石继承)等种种问题。 MRO 就是类的方法解析顺序表, 其实也就是继承父类方法时的顺序表。 typ 阅读全文
posted @ 2019-02-16 22:39 wqbin 阅读(452) 评论(0) 推荐(0)
摘要:java 类方法和实例方法 类方法 实例方法 区别和注意事项 在java中静态方法就是类方法 python 类方法 实例方法 静态方法 在python用到两个装饰器 @classmethod和@staticmethod用来表示类方法和静态方法 classmethod:它的用法是定义操作类,而不是操作 阅读全文
posted @ 2019-02-16 20:43 wqbin 阅读(307) 评论(0) 推荐(0)
摘要:__str__和__repr__,__format__ 改变对象的字符串显示__str__,__repr__ 自定制格式化字符串__format__ #_*_coding:utf-8_*_ format_dict={ '格式1':'{obj.name}-{obj.addr}-{obj.type}', 阅读全文
posted @ 2019-02-15 11:33 wqbin 阅读(865) 评论(0) 推荐(0)
摘要:1.反射 前言 如何动态输入一个模块名,可以随时访问到导入模块中的方法或者变量? 实现了动态输入模块名,从而使我们能够输入模块名并且执行里面的函数。但是执行的函数被固定了。如何实现动态输入函数名来执行呢? what 反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本 阅读全文
posted @ 2019-02-15 09:50 wqbin 阅读(205) 评论(0) 推荐(0)
摘要:pandas.DataFrame.join 自己弄了很久,一看官网。感觉自己宛如智障。不要脸了,直接抄 Join columns with other DataFrame either on index or on a key column. Efficiently Join multiple Da 阅读全文
posted @ 2019-02-12 00:03 wqbin 阅读(4218) 评论(0) 推荐(0)
摘要:二、merge:通过键拼接列 类似于关系型数据库的连接方式,可以根据一个或多个键将不同的DatFrame连接起来。 该函数的典型应用场景是,针对同一个主键存在两张不同字段的表,根据主键整合到一张表里面。 参数介绍: left和right:两个不同的DataFrame; how:连接方式,有inner 阅读全文
posted @ 2019-02-11 23:56 wqbin 阅读(37315) 评论(0) 推荐(0)
摘要:一、concat:沿着一条轴,将多个对象堆叠到一起 objs:需要连接的对象集合,一般是列表或字典; axis:连接轴向; join:参数为‘outer’或‘inner’; join_axes=[]:指定自定义的索引; keys=[]:创建层次化索引; ignore_index=True:重建索引 阅读全文
posted @ 2019-02-11 23:12 wqbin 阅读(4116) 评论(0) 推荐(0)
摘要:1. 原始表 数据清洗后的表 3.数据导入 4.脚本编写和脚本加载 然后 hdfs dfs -put 5.数据清洗+转储 然后我就失败了 阅读全文
posted @ 2019-02-11 20:42 wqbin 阅读(2051) 评论(0) 推荐(0)
摘要:哎总是忘了做个笔记。 1. beeline -u jdbc:hive2://localhost:10000/big12 2. 第一步:先启动hiveserver2 必须启动 第二步: <property> <name>hive.server2.authentication</name> <value 阅读全文
posted @ 2019-02-11 16:47 wqbin 阅读(1769) 评论(0) 推荐(0)
摘要:方法一:使用pyhive库 如上图所示我们需要四个外部包 中间遇到很多报错。我都一一解决了 1.Connection Issue: thrift.transport.TTransport.TTransportException: TSocket read 0 bytes 2.安装sasl 遇到Mic 阅读全文
posted @ 2019-02-11 14:31 wqbin 阅读(4789) 评论(0) 推荐(0)
摘要:1.首先打开https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到对应版本的Twisted并下载到你的文件夹。此例为Twisted‑17.9.0‑cp36‑cp36m‑win_amd64.whl 2.利用pip install命令安装指定存储路径 阅读全文
posted @ 2019-02-11 12:22 wqbin 阅读(2943) 评论(0) 推荐(0)
摘要:在运行hive命令时传入参数,使用-hivevar 和 -hiveconf 两种参数选项,来给此次的执行脚本传入参数 -hivevar : 传参数 ,专门提供给用户自定义变量。 -hiveconf : 传参数,包括了hive-site.xml中配置的hive全局变量。 (1)脚本调用 test.sq 阅读全文
posted @ 2019-02-11 10:34 wqbin 阅读(14011) 评论(0) 推荐(0)
摘要:在数据预处理时首先可以对偏度比较大的数据用log1p函数进行转化,使其更加服从高斯分布,此步处理可能会使我们后续的分类结果得到一个更好的结果;平滑处理很容易被忽略掉,导致模型的结果总是达不到一定的标准,同样使用逼格更高的log1p能避免复值得问题——复值指一个自变量对应多个因变量; log1p的使用 阅读全文
posted @ 2019-02-01 16:42 wqbin 阅读(6091) 评论(0) 推荐(0)