2019年10月9日

Excel按照某一列的重复数据设置隔行变颜色效果

摘要: 问题:如图所示,想按照A列中的重复数据设置隔重复行变颜色的效果,能否通过条件格式命令实现。 方法1:(最佳答案) 条件格式公式:=MOD(SUMPRODUCT(--($A$1:$A1<>$A$2:$A2)),2) 方法2:(笨方法) (1)在D列 生成一列 使用 1、2、1、2交替。 如D4 = i 阅读全文

posted @ 2019-10-09 19:57 andy_1 阅读(2295) 评论(0) 推荐(0) 编辑

2019年10月8日

windows中将网络共享文件夹映射为网络硬盘

摘要: 目的是: 实现局域网,不同电脑之间共享文件。 例如: 计划将A电脑 的文件夹C:\MM ,共享给局域网电脑 B。 局域网所有电脑都可访问: 1. 在A电脑中 共享文件夹。。选择‘启用网络发现’ ‘关闭密码保护共享’ 。 注意: 一定要选 guest。。 2. 在B电脑中 的dos界面输入命令: ne 阅读全文

posted @ 2019-10-08 16:47 andy_1 阅读(7011) 评论(0) 推荐(0) 编辑

2019年9月9日

使用python爬去国家民政最新的省份代码的程序,requests,beautifulsoup,lxml

摘要: 使用的python3.6 民政网站,不同年份数据可能页面结构不一致,这点踩了很多坑,这也是代码越写越长的原因。 如果以后此段代码不可用,希望再仔细学习下 页面结构是否发生了变更。 阅读全文

posted @ 2019-09-09 11:16 andy_1 阅读(366) 评论(0) 推荐(0) 编辑

2019年9月5日

hive函数总结

摘要: 参加工作5年多,hive(sql)用了4年多。 很多时候用的时候,都是用啥查啥学啥,过往的工作是成堆的sql,也没有梳理。 这里就做一下笔记本。遇到好用的函数记录一下。 Hive 时间日期处理总结 --日期转季度SELECT concat_ws('-',substring('2020-05-01', 阅读全文

posted @ 2019-09-05 11:20 andy_1 阅读(200) 评论(0) 推荐(0) 编辑

2019年8月1日

SQL中null比较的雷区

摘要: SQL中遇到null要格外小心! oracle最坑: oracle中在可为null的字段上做逻辑关系运算要格外小心,如 <>,>,=,<,任何与null的运算结果都返回false,因此对于可能为null的字段运算判断要用 is null 来判断,或者使用函数nvl、decode处理后在判断,比如:w 阅读全文

posted @ 2019-08-01 10:22 andy_1 阅读(671) 评论(0) 推荐(0) 编辑

2019年7月27日

hive拉链表取数

摘要: 例如,一个借款用户在hive上的拉链表。(end_dt存放逻辑与普通介绍的拉链表不一致) 需要拉去它在2019-05-01日的状态, 取数逻辑是: select * from tb where start_dt<='2019-05-01' and end_dt>'2019-05-01' and dt 阅读全文

posted @ 2019-07-27 15:35 andy_1 阅读(595) 评论(0) 推荐(0) 编辑

hive-oracle-常用分析函数-窗口函数

摘要: 常用的分析函数如下所列: row_number() over(partition by ... order by ...)rank() over(partition by ... order by ...)dense_rank() over(partition by ... order by ... 阅读全文

posted @ 2019-07-27 10:54 andy_1 阅读(211) 评论(0) 推荐(0) 编辑

2019年6月21日

hive行转列的高级用法later view explode

摘要: 先贴出一个示例: 参考链接 阅读全文

posted @ 2019-06-21 19:09 andy_1 阅读(966) 评论(0) 推荐(0) 编辑

2019年6月18日

Hive 行列转换

摘要: hive 阅读全文

posted @ 2019-06-18 09:31 andy_1 阅读(231) 评论(0) 推荐(0) 编辑

2019年5月7日

ORACLE 使用笔记

摘要: ORACLE TRUNC()函数 TRUNC():类似截取函数,按指定的格式截取输入的数据。 1.【trunc(for dates)】TRUNC()函数处理日期 语法格式:TRUNC(date[,fmt]) 其中:date 一个日期值;fmt 日期格式。 该日期将按指定的日期格式截取;忽略它则由最近 阅读全文

posted @ 2019-05-07 11:19 andy_1 阅读(230) 评论(0) 推荐(0) 编辑

2019年4月26日

Python资源大全,让你相见恨晚的Python库

摘要: Python资源大全,让你相见恨晚的Python库 Linux常用156个命令汇总 阅读全文

posted @ 2019-04-26 14:08 andy_1 阅读(299) 评论(0) 推荐(0) 编辑

2019年4月8日

基于python的k-s值计算

摘要: 做评分卡模型时(假设有多个自变量,因变量即是否违约。)通常需要筛选变量。 k-s值的作用类似于AUC,它期初是用来评价模型(变量)对是否违约事件的区分程度的。 ks检验介绍<转载>笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器学习评价标准,比如说准确率、精确率 阅读全文

posted @ 2019-04-08 20:07 andy_1 阅读(8242) 评论(0) 推荐(1) 编辑

2019年3月13日

sklearn聚类模型:基于密度的DBSCAN;基于混合高斯模型的GMM

摘要: 1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类 (基于密度的聚类) 5 DBSCAN密度聚类算法 6 混合高斯模型Gaussian Mixture Model(GMM) 阅读全文

posted @ 2019-03-13 15:04 andy_1 阅读(1471) 评论(0) 推荐(0) 编辑

2019年3月7日

skearn学习路径

摘要: sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons python np.logspace(1,10,5) np.linspace() 创建等比数列,生成(star 阅读全文

posted @ 2019-03-07 10:46 andy_1 阅读(373) 评论(0) 推荐(0) 编辑

LDA降维与PCA降维对比

摘要: 线性判别分析LDA原理总结 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(169) 评论(0) 推荐(0) 编辑

透彻形象理解核函数

摘要: 透彻形象理解核函数 阅读全文

posted @ 2019-03-07 09:13 andy_1 阅读(230) 评论(0) 推荐(0) 编辑

2019年3月6日

sklearn 岭回归

摘要: 可以理解的原理描述: 【机器学习】岭回归(L2正则) 最小二乘法与岭回归的介绍与对比 多重共线性的解决方法之——岭回归与LASSO 阅读全文

posted @ 2019-03-06 15:59 andy_1 阅读(122) 评论(0) 推荐(0) 编辑

2019年2月27日

GBDT、XGBOOST、LightGBM对比学习及调参

摘要: 一、概述。 因为工作原因,LightGBM 、 XGBOOST 、GBDT 是不可避免要接触的。这里仅仅记录个人的学习经验。 总的认识: LightGBM > XGBOOST > GBDT (效果及易用性) 都是调参数比较麻烦。(个人感觉LightGBM和XGBOOST的默认参数已经很强大了。) 二 阅读全文

posted @ 2019-02-27 11:03 andy_1 阅读(1365) 评论(0) 推荐(0) 编辑

2019年2月25日

sklearn,交叉验证中的分层抽样

摘要: StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。 例子: import numpy as np from sklearn.model_selection import KFold,StratifiedKFold 作者:wqh 阅读全文

posted @ 2019-02-25 16:50 andy_1 阅读(3289) 评论(0) 推荐(0) 编辑

sklearn调参(验证曲线,可视化不同参数下交叉验证得分)

摘要: 一 、 原始方法: 思路: 1. 参数从 0+∞ 的一个 区间 取点, 方法如: np.logspace(-10, 0, 10) , np.logspace(-6, -1, 5) 2. 循环调用cross_val_score计算得分。 在SVM不同的惩罚参数C下的模型准确率。 效果: 二、高级方法( 阅读全文

posted @ 2019-02-25 15:34 andy_1 阅读(1504) 评论(0) 推荐(0) 编辑

SKlearn库学习曲线

摘要: 思想: # 1.现将所有样本用交叉验证方法或者(随机抽样方法) 得到 K对 训练集-验证集# 2.依次对K个训练集,拿出数量不断增加的子集如m个,并在这些K*m个子集上训练模型。# 3.依次在对应训练集子集、验证集上计算得分。# 4.对每种大小下的子集,计算K次训练集得分均值和K次验证集得分均值,共 阅读全文

posted @ 2019-02-25 14:12 andy_1 阅读(1811) 评论(0) 推荐(0) 编辑

2019年2月22日

SKlearn库学习曲线和验证曲线

摘要: SKlearn库学习曲线和验证曲线 阅读全文

posted @ 2019-02-22 10:47 andy_1 阅读(413) 评论(0) 推荐(0) 编辑

2019年1月31日

时间指标的细化

摘要: 阅读全文

posted @ 2019-01-31 14:41 andy_1 阅读(205) 评论(0) 推荐(0) 编辑

2019年1月24日

sklearn.model_selection模块

摘要: 后续补代码 sklearn.model_selection模块的几个方法参数 阅读全文

posted @ 2019-01-24 13:39 andy_1 阅读(548) 评论(0) 推荐(0) 编辑

K最近邻kNN-学习笔记

摘要: # 0.98 改进点: 1. 根据最近的K个值 的距离对最终结果,进行加权。 2. 通过先验知识,对训练数据进行筛选,缩小训练样本,提高样本质量,有利于提高计算速度。 3. 变量尽量少,这样可以提供速度。 优点: 1. 算法原理非常简单: 用 欧式距离最近(或曼哈顿距离)的K个样本点的分类中的众数, 阅读全文

posted @ 2019-01-24 09:49 andy_1 阅读(252) 评论(0) 推荐(0) 编辑

2019年1月23日

随机森林学习-sklearn

摘要: 随机森林的Python实现 (RandomForestClassifier) #有意思的输出clf.feature_importances_ # 输出 自变量的总要程度clf.predict_proba(test[features]) #输出每个测试样本对应几种数据类型的概率值 150个数据,112 阅读全文

posted @ 2019-01-23 10:07 andy_1 阅读(1818) 评论(0) 推荐(0) 编辑

2019年1月21日

matplotlib画堆叠条形图

摘要: plt.style.use("ggplot") #设置图片风格为ggplot plt.rcParams['figure.dpi'] = 100 #分辨率 阅读全文

posted @ 2019-01-21 16:17 andy_1 阅读(1409) 评论(0) 推荐(0) 编辑

PCA和SVD最佳理解

摘要: 奇异值分解(SVD)原理与在降维中的应用 https://www.cnblogs.com/pinard/p/6251584.html 最通俗易懂的PCA主成分分析推导 https://blog.csdn.net/u012526436/article/details/80868294,https:// 阅读全文

posted @ 2019-01-21 13:57 andy_1 阅读(621) 评论(0) 推荐(0) 编辑

linux unzip 中文乱码解决方法

摘要: 引自;https://blog.csdn.net/abyjun/article/details/48344379 unzip -O CP936 xxx.zip (用GBK, GB18030也可以) 阅读全文

posted @ 2019-01-21 11:39 andy_1 阅读(850) 评论(0) 推荐(0) 编辑

python文件、文件夹操作OS模块

摘要: 转自:python文件、文件夹操作OS模块 '''一、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.listdir()3.函数用来删除一个 阅读全文

posted @ 2019-01-21 11:34 andy_1 阅读(368) 评论(0) 推荐(0) 编辑

2019年1月17日

利用pyecharts做地图数据展示

摘要: 首先, pip install pyecharts 为了地图上的数据能显示完全,加载好需要的城市地理坐标数据。 pip install echarts-countries-pypkg pip install echarts-china-provinces-pypkg pip install echa 阅读全文

posted @ 2019-01-17 11:19 andy_1 阅读(8851) 评论(0) 推荐(0) 编辑

2019年1月11日

描述机器学习之神经网络算法原理

摘要: 一、以小孩识别食物为例,描述机器学习之神经网络算法原理 准备阶段: 一个小孩(将使用的神经网络算法)刚出生(所有参数都是初始化的),对母乳以外的什么食物可以吃(怎样得到预测值)一无所知。 准备好很多的多种多样的食物(训练数据的输入),每种食物幼童是否可以食用是恒定的(训练数据的输出),但是这个小孩不 阅读全文

posted @ 2019-01-11 17:37 andy_1 阅读(517) 评论(0) 推荐(0) 编辑

2019年1月10日

python-pandas 高级功能(通过学习kaggle案例总结)

摘要: 方法.iterrows()遍历循环df中的元素。 for index,row in df.iterrows(): pass 更改df一个元素中的变量值。 data1.set_value(index,'Random_Predict',1) 阅读全文

posted @ 2019-01-10 16:32 andy_1 阅读(444) 评论(0) 推荐(0) 编辑

2019年1月8日

python装饰器@用法

摘要: 这个是我见过比较好的讲解链接: "【廖雪峰的官方网站 装饰器】" 阅读全文

posted @ 2019-01-08 11:41 andy_1 阅读(139) 评论(0) 推荐(0) 编辑

2019年1月3日

mysql分组排序取最大值所在行,类似hive中row_number() over partition by

摘要: 如下图, 计划实现 :按照 parent_code 分组, 取组中code最大值所在的整条记录,如红色部分。(类似hive中: row_number() over(partition by)) 个人理解, mysql 运行顺序: from >> where >> order by >> select 阅读全文

posted @ 2019-01-03 20:15 andy_1 阅读(5263) 评论(0) 推荐(0) 编辑

2018年12月26日

Hive官方使用手册——新Hive CLI(Beeline CLI)

摘要: Hive官方使用手册——新Hive CLI(Beeline CLI) https://blog.csdn.net/maizi1045/article/details/79481686 阅读全文

posted @ 2018-12-26 16:48 andy_1 阅读(368) 评论(0) 推荐(0) 编辑

pyspark遇到报错:_PYSPARK_DRIVER_CONN_INFO_PATH

摘要: 1. 环境 : centos,启动pyspark,执行如下python命令: 用root账号没问题: 用非root账号会有此问题如下:_PYSPARK_DRIVER_CONN_INFO_PATH,后台设置下/etc/profile 中环境变量可以了。 vi /etc/profile 加入:,sour 阅读全文

posted @ 2018-12-26 11:45 andy_1 阅读(1812) 评论(0) 推荐(0) 编辑

2018年12月14日

python 运行日志logging代替方案

摘要: 以下是自己写的 记录日志的代码。(和logging不搭嘎,如果如要学loggging模块,本文末尾有他人的链接。) 同目录下生成1.log 运行prtlog.py3次,运行b.py3次. 1.log内容: 如需了解logging: (转)python logging模块 ★★, python中log 阅读全文

posted @ 2018-12-14 11:47 andy_1 阅读(1410) 评论(0) 推荐(0) 编辑

2018年12月11日

pandas使用lambda判断元素是否为空或者None

摘要: df2a_tp2 = df2a[df2a['combineIdentifyCode'].map(lambda x: len(str(x).strip())>0)].copy() #识别出合单的订单[pd.isnull(i[0]['trp_vehicleNumber']) for i in dfMatch_5_c[0:20]] 阅读全文

posted @ 2018-12-11 15:29 andy_1 阅读(8129) 评论(0) 推荐(0) 编辑

windows安装spark

只有注册用户登录后才能阅读该文。 阅读全文

posted @ 2018-12-11 10:10 andy_1 阅读(5) 评论(0) 推荐(0) 编辑

导航