2018 年 9月随笔档案 - 静悟生慧

EAST 自然场景文本检测

摘要：自然场景文本检测是图像处理的核心模块，也是一直想要接触的一个方面。刚好看到国内的旷视今年在CVPR2017的一篇文章：EAST: An Efficient and Accurate Scene Text Detector。而且有开放的代码，学习和测试了下。题目说的是比较高效，它的高效主要体现在对阅读全文

posted @ 2018-09-30 14:33 静悟生慧阅读(4154) 评论(0) 推荐(0) 编辑

TensorFlow 简单实例

摘要：TF 手写体识别简单实例： TensorFlow很适合用来进行大规模的数值计算，其中也包括实现和训练深度神经网络模型。下面将介绍TensorFlow中模型的基本组成部分，同时将构建一个CNN模型来对MNIST数据集中的数字手写体进行识别。基本设置在我们构建模型之前，我们首先加载MNIST数据集，阅读全文

posted @ 2018-09-29 12:01 静悟生慧阅读(5946) 评论(0) 推荐(0) 编辑

CTC loss 理解

摘要：参考文献 CTC学习笔记（一）简介：https://blog.csdn.net/xmdxcsj/article/details/51763868 CTC学习笔记（二）训练和公式推导很详细的公示推导前向后向算法计算序列概率，并最大化使用BPTT算法得到损失函数对神经网络参数的偏导. CTC学阅读全文

posted @ 2018-09-28 20:42 静悟生慧阅读(4996) 评论(0) 推荐(0) 编辑

python 字符串前面加u,r,b的含义

摘要：u/U:表示unicode字符串不是仅仅是针对中文, 可以针对任何的字符串，代表是对字符串进行unicode编码。一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u；但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。建议所有编码方式采用utf8 r/R:非转义的原阅读全文

posted @ 2018-09-27 13:46 静悟生慧阅读(1064) 评论(0) 推荐(0) 编辑

文本检测： CTPN

摘要：参考： https://zhuanlan.zhihu.com/p/37363942 https://zhuanlan.zhihu.com/p/34757009 https://zhuanlan.zhihu.com/p/31426458 【 Faster RCNN 非常详尽】对于理解RNN／LSTM 阅读全文

posted @ 2018-09-25 16:14 静悟生慧阅读(2113) 评论(0) 推荐(0) 编辑

ocr 识别 github 源码

摘要：参考 [1] https://github.com/eragonruan/text-detection-ctpn [2] https://github.com/senlinuc/caffe_ocr [3] https://github.com/YCG09/chinese_ocr 感谢作者！ [4] 阅读全文

posted @ 2018-09-25 10:29 静悟生慧阅读(6459) 评论(0) 推荐(0) 编辑

python 中写hive 脚本

摘要：1、直接执行.sql脚本 2、Hive语句执行假如有如下hive sql：hive_cmd = 'hive -e "select count(*) from hbase.routermac_sort_10;"'一般在python中按照如下方式执行该hive sql：os.system(hive_c 阅读全文

posted @ 2018-09-24 18:14 静悟生慧阅读(5257) 评论(0) 推荐(0) 编辑

Win10 环境安装tesseract-ocr 4.00并配置环境变量

摘要：Tesseract-OCR的Training简明教程 https://blog.csdn.net/blueheart20/article/details/53207176 一、安装：选择对应版本，https://digi.bib.uni-mannheim.de/tesseract/ 1：下载安装包阅读全文

posted @ 2018-09-24 17:32 静悟生慧阅读(4179) 评论(0) 推荐(0) 编辑

OCR 识别原理

摘要：https://mp.weixin.qq.com/s?__biz=MzA3MDExNzcyNA==&mid=402907292&idx=1&sn=889c4abcf576e24525ea6a705069c4de https://blog.csdn.net/zgwangbo/article/detai 阅读全文

posted @ 2018-09-24 12:13 静悟生慧阅读(582) 评论(0) 推荐(0) 编辑

pandas set_index和reset_index的用法

摘要：1.set_index DataFrame可以通过set_index方法，可以设置单索引和复合索引。 DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False) append添加新阅读全文

posted @ 2018-09-24 10:51 静悟生慧阅读(15847) 评论(0) 推荐(1) 编辑

整理 pandas 常用函数

摘要：1. df.head（n）: 显示数据前n行，不指定n，df.head则会显示所有的行 2. df.columns.values获取所有列索引的名称 3. df.column_name: 直接获取列column_name的数据 4. pd.unique(Series)获取Series中元素的唯一值（阅读全文

posted @ 2018-09-24 10:07 静悟生慧阅读(3153) 评论(0) 推荐(0) 编辑

pandas contact 之后，若要用到index列，要记得用reset_index去处理index

摘要：说明：直接contact之后，index只是重复，而不是变成我们希望的那样，这样在后续的操作中，容易出现逻辑错误。 df4 = pd.DataFrame({'val':[0,1,2,3,4,5,6,7,8,9,10,11],'A': ['A0', 'A1', 'A2', 'A3','A4', 'A5 阅读全文

posted @ 2018-09-24 09:32 静悟生慧阅读(1570) 评论(0) 推荐(0) 编辑

python pandas groupby

摘要：转自： https://blog.csdn.net/Leonis_v/article/details/51832916 pandas提供了一个灵活高效的groupby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。根据一个或多个键（可以是函数、数组或DataFrame列名）拆分p 阅读全文

posted @ 2018-09-21 19:58 静悟生慧阅读(3227) 评论(0) 推荐(0) 编辑

ORC 资料Mark

摘要：1 OCR开源代码网址汇总 1.1 OCRE(OCR Easy), http://lem.eui.upm.es/ocre.html 1.2 Clara OCR,http://directory.fsf.org/claraocr.html 1.3 OCRAD,http://directory.fsf. 阅读全文

posted @ 2018-09-21 14:22 静悟生慧阅读(248) 评论(0) 推荐(0) 编辑

python split() 用法

摘要：字符串的split用法说明：Python中没有字符类型的说法，只有字符串，这里所说的字符就是只包含一个字符的字符串！！！这里这样写的原因只是为了方便理解，仅此而已。由于敢接触Python，所以不保证以后还有没有其他用法，所以会在后面不断加入。。。 1.按某一个字符分割，如‘.’ 结果如下： 2.按阅读全文

posted @ 2018-09-19 20:24 静悟生慧阅读(2494) 评论(0) 推荐(0) 编辑

Hive 中的变量

摘要：Hive的变量前面有一个命名空间，包括三个hiveconf，system，env，还有一个hivevar hiveconf的命名空间指的是hive-site.xml下面的配置变量值。 system的命名空间是系统的变量，包括JVM的运行环境。 env的命名空间，是指环境变量，包括Shell环境下的变阅读全文

posted @ 2018-09-19 18:34 静悟生慧阅读(3934) 评论(0) 推荐(0) 编辑

特征选择方法

摘要：特征选择当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：根据特征选择的形式又可以将特征选择方法分为3种：我们使用sklearn中的feature_selection库来进行特征选择。【特征工程】特征选择及mRMR算法解析机器学阅读全文

posted @ 2018-09-19 09:47 静悟生慧阅读(1150) 评论(0) 推荐(0) 编辑

Introduction to SIFT (Scale-Invariant Feature Transform)

摘要：SIFT OpenCV 官方文档： https://docs.opencv.org/master/da/df5/tutorial_py_sift_intro.html https://opencv-python-tutroals.readthedocs.io/en/latest/py_tutoria 阅读全文

posted @ 2018-09-18 11:27 静悟生慧阅读(1960) 评论(4) 推荐(1) 编辑

SIFT 、Hog 、LBP 了解

摘要：SIFT、HOG、LBP，这三者都属于局部特征。一、三者原理上的区别 1.SIFT：Scale-Invariant Feature Taransform，尺度不变特征变换。尺度空间的极值检测：搜索所有尺度空间上的图像，通过高斯微分函数来识别潜在的对尺度和旋转鲁棒性较强的点。特征点定位：在每个候阅读全文

posted @ 2018-09-18 09:22 静悟生慧阅读(1009) 评论(0) 推荐(0) 编辑

python None 和 NaN

摘要：python原生的None和pandas, numpy中的numpy.NaN尽管在功能上都是用来标示空缺数据。但它们的行为在很多场景下确有一些相当大的差异。由于不熟悉这些差异，曾经给我的工作带来过不少麻烦。　特此整理了一份详细的实验，比较None和NaN在不同场景下的差异。实验的结果有些在意料之内阅读全文

posted @ 2018-09-17 20:53 静悟生慧阅读(3642) 评论(0) 推荐(2) 编辑

判断特征中是否含有空值、空值填充

摘要：np.isnan(X).any() X=X.fillna(0) 一定要将填充结果再次赋值阅读全文

posted @ 2018-09-17 17:06 静悟生慧阅读(372) 评论(0) 推荐(0) 编辑

hive partition 分区使用

摘要：一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表，需要在create表的时候调用可阅读全文

posted @ 2018-09-14 12:46 静悟生慧阅读(3420) 评论(0) 推荐(0) 编辑

hive 分位数函数 percentile(col, p)

摘要：注意在偶数情况下，中位数会存在小数，特别注意！ hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的阅读全文

posted @ 2018-09-14 12:16 静悟生慧阅读(57028) 评论(0) 推荐(0) 编辑

大规模商品挖掘计算

摘要：Docker：作者：刘允鹏链接：https://www.zhihu.com/question/28300645/answer/67707287来源：知乎 Docker的思想来自于集装箱，集装箱解决了什么问题？在一艘大船上，可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了，集装箱和集装箱阅读全文

posted @ 2018-09-14 10:09 静悟生慧阅读(211) 评论(0) 推荐(0) 编辑

Faster RCNN原理分析：Region Proposal Networks详解

摘要：博主的论文笔记： https://blog.csdn.net/YZXnuaa/article/details/79221189 很详细！另外，关于博主的博客很多拓展知识面： 120篇深度学习23篇机器学习35篇 RNN8篇基础算法24篇 NLP11篇啥玩意儿32篇 ubuntu操作20篇阅读全文

posted @ 2018-09-13 12:03 静悟生慧阅读(2148) 评论(0) 推荐(0) 编辑

javascript、js操作json对象和字符串互相转换方法

摘要：相信前端的同学们对json并不陌生，接触过很多。但是很少人知道json的全称是什么，哈哈，我也是查资料知道的。（JSON JavaScript Object Notation是一种轻量级的数据交换格式，采用完全独立于语言的文本格式，是理想的数据交换格式。） json可以以数组传递，也可以以对象传递，阅读全文

posted @ 2018-09-13 09:56 静悟生慧阅读(302) 评论(0) 推荐(0) 编辑

JSON字符串与JSON对象的区别

摘要：本篇文章是对javascript、js操作json方法总结 http://www.haorooms.com/post/js_jsons_h 这篇文章的补充说明，有朋友问JSON字符串与JSON对象的区别，下面说一下。 JSON对象是直接可以使用JQuery操作的格式，和js中的对象一样，可以用对象（阅读全文

posted @ 2018-09-13 09:51 静悟生慧阅读(263) 评论(0) 推荐(0) 编辑

python 2/3 joblib.dump() 和 joblib.load()

摘要：经过查阅资料：跨python版本的 joblib.dump() 和 joblib.load() Compatibility across python versions Compatibility of joblib pickles across python versions is not fu 阅读全文

posted @ 2018-09-11 16:19 静悟生慧阅读(15646) 评论(0) 推荐(0) 编辑

PySpark的DataFrame处理方法

摘要：转：https://blog.csdn.net/weimingyu945/article/details/77981884 感谢！基本操作：运行时获取spark版本号（以spark 2.0.0为例）： sparksn = SparkSession.builder.appName("PythonS 阅读全文

posted @ 2018-09-11 11:11 静悟生慧阅读(17541) 评论(0) 推荐(0) 编辑

python pivot() 函数

摘要：以下为python pandas 库的dataframe pivot()函数的官方文档： Reshape data (produce a “pivot” table) based on column values. Uses unique values from index / columns to 阅读全文

posted @ 2018-09-10 11:17 静悟生慧阅读(7926) 评论(0) 推荐(0) 编辑

numpy.argmin 使用

摘要：https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.argmin.html numpy.argmin(a, axis=None, out=None)[source] 给出axis方向最小值的下表 a : Input ar 阅读全文

posted @ 2018-09-07 20:15 静悟生慧阅读(7192) 评论(0) 推荐(0) 编辑

python 中 numpy array 中的维度

摘要：简介 numpy 创建的数组都有一个shape属性，它是一个元组，返回各个维度的维数。有时候我们可能需要知道某一维的特定维数。二维情况可以看到y是一个两行三列的二维数组，y.shape[0]代表行数，y.shape[1]代表列数。三维情况可以看到x是一个包含了3个两行三列的二维数组的三维数组阅读全文

posted @ 2018-09-05 15:55 静悟生慧阅读(28934) 评论(0) 推荐(3) 编辑

Hive 数据类型

摘要：日期/时间类型 Hive支持带可选的纳秒级精度的UNIX timestamp。Hive中的timestamp与时区无关，存储为UNIX纪元的偏移量。Hive提供了用于timestamp和时区相互转换的便利UDF：to_utc_timestamp和 from_utc_timestamp。Timesta 阅读全文

posted @ 2018-09-05 15:34 静悟生慧阅读(17197) 评论(0) 推荐(0) 编辑

linux 查看CPU、内存大小

摘要：查看linux下的cpu、内存和硬盘大小：查看cpu的方法 1、 cat /proc/cpuinfo 或者更直观的查看cpu的型号命令：dmesg |grep -i xeon 查看内存的方法 2、 cat /proc/meminfo 或者更直观的查看内存的命令：free -m 查看硬盘大小 3 阅读全文

posted @ 2018-09-05 12:24 静悟生慧阅读(19009) 评论(0) 推荐(0) 编辑

将数据从数据库直接通过 pyspark 读入到dataframe

摘要：from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .master("local") \ .enableHiveSupport() \ .getOrCreate() #try: ... 阅读全文

posted @ 2018-09-05 11:44 静悟生慧阅读(1268) 评论(0) 推荐(0) 编辑

Hive 指定分隔符，将表导出到本地

摘要：hive表的数据源有四种： hbase hdfs 本地其他hive表而hive表本身有两种: 内部表和外部表。而hbase的数据在hive中，可以建立对应的外部表（参看hive和hbase整合）区别：删除时，内部表删除hadoop上的数据；而外部表不删，其数据在外部存储，hive表只是查看数阅读全文

posted @ 2018-09-05 10:04 静悟生慧阅读(9746) 评论(0) 推荐(0) 编辑

Hive 显示列名/表头

摘要：set hive.cli.print.header=true; 阅读全文

posted @ 2018-09-05 09:22 静悟生慧阅读(3506) 评论(0) 推荐(0) 编辑

sklearn 随机森林方法

摘要：Methods Predict class for X. The predicted class of an input sample is a vote by the trees in the forest, weighted by their probability estimates. Tha 阅读全文

posted @ 2018-09-03 12:26 静悟生慧阅读(1275) 评论(0) 推荐(0) 编辑

静悟生慧

09 2018 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论