静悟生慧

2019年3月29日

摘要： Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业阅读全文

posted @ 2019-03-29 12:21 静悟生慧阅读(970) 评论(0) 推荐(0) 编辑

2019年3月27日

intellij IDEA 安装和配置和使用

摘要：下载：https://www.jetbrains.com/idea/download/download-thanks.html?platform=windows 安装教程：https://blog.csdn.net/mashuai720/article/details/79389314 激活：htt 阅读全文

posted @ 2019-03-27 10:35 静悟生慧阅读(606) 评论(0) 推荐(0) 编辑

2019年3月26日

训练集测试集划分 train_test_split(X, y, stratify=y）

摘要： from sklearn.model_selecting import train_test_spilt() 参数stratify：依据标签y，按原数据y中各类比例，分配给train和test，使得train和test中各类数据的比例与原数据集一样。例如：A:B:C=1:2:3 split后，t 阅读全文

posted @ 2019-03-26 09:20 静悟生慧阅读(3168) 评论(0) 推荐(0) 编辑

2019年3月24日

keras 文本分类 LSTM

摘要：首先，对需要导入的库进行导入，读入数据后，用jieba来进行中文分词 # encoding: utf-8 #载入接下来分析用的库 import pandas as pd import numpy as np import xgboost as xgb from tqdm import tqdm fr 阅读全文

posted @ 2019-03-24 16:41 静悟生慧阅读(4927) 评论(1) 推荐(0) 编辑

2019年3月20日

多分类-- ROC曲线

摘要：本文主要介绍一下多分类下的ROC曲线绘制和AUC计算，并以鸢尾花数据为例，简单用python进行一下说明。如果对ROC和AUC二分类下的概念不是很了解，可以先参考下这篇文章：http://blog.csdn.net/ye1215172385/article/details/79448575 由于RO 阅读全文

posted @ 2019-03-20 21:15 静悟生慧阅读(6411) 评论(0) 推荐(0) 编辑

pascalVOC 标注文件，解析为TXT

摘要：首先，读取所有xml文件完整路径，写入train.txt 文本文档中，然后读取TXT文档，逐行读取xml文档，建文件夹，用于保存解析好的TXT，写入TXT时，只需要保存类别名和坐标信息即可，中间用Tab分割参考：　https://www.cnblogs.com/rainsoul/p/628323 阅读全文

posted @ 2019-03-20 20:55 静悟生慧阅读(1007) 评论(1) 推荐(0) 编辑

XGB 调参基本方法

摘要： - xgboost 基本方法和默认参数 - 实战经验中调参方法 - 基于实例具体分析在训练过程中主要用到两个方法：xgboost.train()和xgboost.cv(). params 这是一个字典，里面包含着训练中的参数关键字和对应的值，形式是params = {‘booster’:’gbtr 阅读全文

posted @ 2019-03-20 10:36 静悟生慧阅读(19940) 评论(0) 推荐(0) 编辑

2019年3月17日

python groupby 函数 as_index

摘要：在官方网站中对as_index有以下介绍： as_index : boolean, default True For aggregated output, return object with group labels as the index. Only relevant for DataFram 阅读全文

posted @ 2019-03-17 13:19 静悟生慧阅读(7401) 评论(0) 推荐(2) 编辑

2019年3月15日

python 字符串编码，区别 utf-8 和utf-8-sig

摘要： Python 读取文件首行多了"\ufeff"字符串 python读取B.txt文件时，控制台打印首行正常，但是若是用首行内容打开文本的话，就会报错：要打开的路径比预期A.txt多了一串字符"\ufeff", 显然无法正确打开文件. 解决方案：在读取B.txt 时,指定编码方式为 "utf-8- 阅读全文

posted @ 2019-03-15 11:47 静悟生慧阅读(22920) 评论(0) 推荐(2) 编辑

shell 数组，双层循环打印变量

摘要：双层循环，打印循环执行次数. 特别注意，shell 脚本赋值时 '=' 两侧不能有空格，否则报错，shell command not found 但在if 语句中需要有： STR1="abc" STR2="abcd" if[$STR1=$STR2](错误写法) if [ $STR1 = $STR2 阅读全文

posted @ 2019-03-15 11:13 静悟生慧阅读(4042) 评论(0) 推荐(0) 编辑

公告