摘要:
1 OCR开源代码网址汇总 1.1 OCRE(OCR Easy), http://lem.eui.upm.es/ocre.html 1.2 Clara OCR,http://directory.fsf.org/claraocr.html 1.3 OCRAD,http://directory.fsf. 阅读全文
摘要:
字符串的split用法说明:Python中没有字符类型的说法,只有字符串,这里所说的字符就是只包含一个字符的字符串!!!这里这样写的原因只是为了方便理解,仅此而已。 由于敢接触Python,所以不保证以后还有没有其他用法,所以会在后面不断加入。。。 1.按某一个字符分割,如‘.’ 结果如下: 2.按 阅读全文
摘要:
Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar hiveconf的命名空间指的是hive-site.xml下面的配置变量值。 system的命名空间是系统的变量,包括JVM的运行环境。 env的命名空间,是指环境变量,包括Shell环境下的变 阅读全文
摘要:
特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 根据特征选择的形式又可以将特征选择方法分为3种: 我们使用sklearn中的feature_selection库来进行特征选择。 【特征工程】特征选择及mRMR算法解析机器学 阅读全文
摘要:
SIFT OpenCV 官方文档: https://docs.opencv.org/master/da/df5/tutorial_py_sift_intro.html https://opencv-python-tutroals.readthedocs.io/en/latest/py_tutoria 阅读全文
摘要:
SIFT、HOG、LBP,这三者都属于局部特征。 一、三者原理上的区别 1.SIFT:Scale-Invariant Feature Taransform,尺度不变特征变换。 尺度空间的极值检测:搜索所有尺度空间上的图像,通过高斯微分函数来识别潜在的对尺度和旋转鲁棒性较强的点。 特征点定位:在每个候 阅读全文
摘要:
python原生的None和pandas, numpy中的numpy.NaN尽管在功能上都是用来标示空缺数据。但它们的行为在很多场景下确有一些相当大的差异。由于不熟悉这些差异,曾经给我的工作带来过不少麻烦。 特此整理了一份详细的实验,比较None和NaN在不同场景下的差异。 实验的结果有些在意料之内 阅读全文
摘要:
np.isnan(X).any() X=X.fillna(0) 一定要将填充结果再次赋值 阅读全文
摘要:
一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可 阅读全文
摘要:
注意在偶数情况下,中位数会存在小数,特别注意! hive里面倒是有个percentile函数和percentile_approx函数,其使用方式为percentile(col, p)、percentile_approx(col, p),p∈(0,1)p∈(0,1) 其中percentile要求输入的 阅读全文