随笔分类 - Python
摘要:GBDT原理和推导:https://blog.csdn.net/yangxudong/article/details/53872141 Pyspark 分类、回归、聚类示例: https://blog.csdn.net/littlely_ll/article/details/78151964 htt
阅读全文
摘要:GBTRegressor 模型评估指标和特征重要度分析 官方文档:https://spark.apache.org/docs/2.2.0/api/python/_modules/pyspark/ml/regression.html 和随机森林类似,训练好model 可用如下代码打印特征以及重要度排序
阅读全文
摘要:1、数据迁移过程中,验证数据拷贝后大小是否一致; shell命令: hadoop fs -count -q 目录 ps: 查看目录下总的大小 dfs -count -q 目录 ps:一样的 hadoop fs -du 目录 ps:查看目录下每个子目录的大小 2、随机森林和GBDT的区别 https:
阅读全文
摘要:Python3 面向对象 https://www.runoob.com/python3/python3-class.html Python3 数据结构 https://www.runoob.com/python3/python3-data-structure.html Python3 函数 http
阅读全文
摘要:关于Keras模型Keras有两种类型的模型,序贯模型(Sequential)和函数式模型(Model),函数式模型应用更为广泛,序贯模型是函数式模型的一种特殊情况。 两类模型有一些方法是相同的: model.summary():打印出模型概况,它实际调用的是keras.utils.print_su
阅读全文
摘要:记录备忘: 转自: https://www.jianshu.com/p/177cbcb1cb6f 数据拉取 加载包: from __future__ import print_function import pandas as pd from pyspark.sql import HiveConte
阅读全文
摘要:使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提
阅读全文
摘要:LogisticRegression回归算法 LogisticRegression回归模型在Sklearn.linear_model子类下,调用sklearn逻辑回归算法步骤比较简单,即: (1) 导入模型。调用逻辑回归LogisticRegression()函数。 (2) fit()训练。调用fi
阅读全文
摘要:介绍:argparseargparse 是 Python 内置的一个用于命令项选项与参数解析的模块,通过在程序中定义好我们需要的参数,argparse 将会从 sys.argv 中解析出这些参数,并自动生成帮助和使用信息。当然,Python 也有第三方的库可用于命令行解析,而且功能也更加强大,比如
阅读全文
摘要:链接:https://zhuanlan.zhihu.com/p/65577153 推荐看原文:http://tryenough.com/python_install 首先要知道,mac自带一个2.7版本的python,如果你之前没装过其他版本,在终端运行 python --version 就会看到这
阅读全文
摘要:原文:https://blog.csdn.net/robinzhou/article/details/6960345 当需要将一张有透明部分的图片粘贴到一张底片上时,如果用Python处理,可能会用到PIL,但是PIL中 有说明,在粘贴RGBA模式的图片是,alpha通道不会被帖上,也就是不会有透明
阅读全文
摘要:图片不清晰,需要指定dpi,图片保存大小问题,设置bbox_inches=‘tight’ (bbox_inches:可选bbox英寸。只保存图形的给定部分。如果“紧”,试着找出数字的紧框。如果没有,请使用savefig.bbox) https://blog.csdn.net/qq_31648921/
阅读全文
摘要:什么是ZBar? ZBar是一个开源库,用于扫描、读取二维码和条形码。支持的二维码包括:EAN/UPC,QR等。 1、windows 下直接pip 安装: pip install pyzbar 2、ubuntu16.04安装方式 sudo apt-get install libzbar-devpip
阅读全文
摘要:%matplotlib inline比较奇怪,而且无论你是用哪个python的IDE如spyder或者pycharm,这个地方都会报错,显示是invalid syntax(无效语法)。 那为什么代码里面还是会有这一句呢? %matplotlib作用 是在使用jupyter notebook 或者 j
阅读全文
摘要:安装及详细使用方法介绍: https://blog.csdn.net/qq_38451119/article/details/82428612 pip install imgaug 失败解决方法: 提示Command "python setup.py egg_info" failed with er
阅读全文
摘要:评分卡模型基础,流程: https://blog.csdn.net/hxcaifly/article/category/7550391 整个模型构建的过程,及其中涉及的一些数据处理方法: https://www.jianshu.com/p/c3fa53c54cca 如卡方分箱方法:https://b
阅读全文
摘要:spark-submit 可以提交任务到 spark 集群执行,也可以提交到 hadoop 的 yarn 集群执行。 1)./spark-shell --help :不知道如何使用,可通过它查看命令帮助,[]中括号里面的表示可选的。 2)重要参数讲解: --master master 的地址,提交任
阅读全文
摘要:H2O中的随机森林算法介绍及其项目实战(python实现) 包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator H2ORandomForestEstimator 的常用方法和参数介绍: (一)建模方法: mod
阅读全文
摘要:from sklearn.model_selecting import train_test_spilt() 参数stratify: 依据标签y,按原数据y中各类比例,分配给train和test,使得train和test中各类数据的比例与原数据集一样。 例如:A:B:C=1:2:3 split后,t
阅读全文