数据挖掘算法 - 随笔分类 - 残阳飞雪

用SQL取代pandas 聚合运算结合plot画图的方法案例

摘要：#!/usr/bin/python # -*- coding: <encoding name> -*- import matplotlib.pyplot as plt import pandas as pd # data processing, CSV file I/O (e.g. pd.read_ 阅读全文

posted @ 2021-10-09 17:05 残阳飞雪阅读(99) 评论(0) 推荐(0) 编辑

解决python plot 画图过程中中文显示的最简单的方法

摘要：#!/usr/bin/python # -*- coding: <encoding name> -*- import pymssql # 引入pymssql模块 import pandas as pd import numpy as np # linear algebra import pandas 阅读全文

posted @ 2021-10-09 17:01 残阳飞雪阅读(2370) 评论(0) 推荐(0) 编辑

判断是否有人跟踪车辆的方案

摘要：一、方案要求：主要道路十字路口的车牌抓拍相机会把所有车辆的车牌号采集到后台,需要计算所有车辆的轨迹数据中,哪些车是伴随出行,比如2辆车一起自驾出游,采集的轨迹为T（P1、P2、P3.....）轨迹点数据格式为P（路口编号,时间戳,车牌号）。 1、目的：从所有车辆数据中挖掘出车与车之间的伴随关系. 阅读全文

posted @ 2020-05-11 20:37 残阳飞雪阅读(744) 评论(0) 推荐(1) 编辑

sbt spark2.3.1 idea打包Caused by: java.lang.ClassNotFoundException: scala.Product$class

摘要：今天同事在服务区上面装的是最新版本的hadoop3.10和spark2.3.1,因为用scala开发，所以我想用sbt进行开发。过程中遇到各种坑，刚开始用的jdk10,结果也报错，后来改成jdk1.8. 又报了新的错误。开始用的是scala2.12.6 如果不要使用spark的纯scala项目则不阅读全文

posted @ 2018-08-03 19:32 残阳飞雪阅读(5999) 评论(0) 推荐(0) 编辑

tensorflow随机梯度下降算法使用滑动平均模型

摘要：在采用随机梯度下降算法训练神经网络时，使用滑动平均模型可以提高最终模型在测试集数据上的表现。在Tensflow中提供了tf.train.ExponentialMovingAverage来实现滑动平均模型。在初始化ExponentialMovingAverage时，需要提供一个衰减率（decay)。这阅读全文

posted @ 2018-06-18 15:17 残阳飞雪阅读(1446) 评论(0) 推荐(0) 编辑

tensflow自定义损失函数

摘要：tensflow 不仅支持经典的损失函数，还可以优化任意的自定义损失函数。预测商品销量时，如果预测值比真实销量大，商家损失的是生产商品的成本；如果预测值比真实值小，损失的则是商品的利润。比如如果一个商品的成本是1元，但利润是10元，那么少预测一个就少赚9元；而多预测一个才亏1元，为了最大化利润预阅读全文

posted @ 2018-06-17 19:07 残阳飞雪阅读(511) 评论(0) 推荐(0) 编辑

spark2.2jdbc写入mysql 的两种方法（append,Overriedwrite)-不用Mysql建表

摘要：import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{SQLContext, SaveMode} import org.apache.spark.sql.hive.HiveContext //spark-shell --driver-class-path /home/hadoop/hive... 阅读全文

posted @ 2018-06-05 14:19 残阳飞雪阅读(4694) 评论(0) 推荐(0) 编辑

逻辑回归算法的原理及实现(LR)

摘要：逻辑回归(Logistic Regression, LR)又称为逻辑回归分析，是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如，我们可以将购买的概率设置为因变量，将用户的特征属性，例如性别，年龄，注册时间等设置为自变量。根据特征属性预测购买的概率。逻辑回归与回归分析有很阅读全文

posted @ 2018-03-30 11:15 残阳飞雪阅读(3241) 评论(0) 推荐(0) 编辑

CART决策树回归的计算过程

摘要：通常情况下，我们采用贪心策略来生成决策树的每个节点。 1. 从深度为 0 的树开始，对每个叶节点枚举所有的可用特征 2. 针对每个特征，把属于该节点的训练样本根据该特征值升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的最大收益（采用最佳分裂点时的收益） 3. 选择收益最大的特征作阅读全文

posted @ 2018-03-23 11:12 残阳飞雪阅读(1390) 评论(0) 推荐(0) 编辑

机器学习资料(非常好理解)

摘要：先从回归(Regression)问题说起。我在本吧已经看到不少人提到如果想实现强AI，就必须让机器学会观察并总结规律的言论。具体地说，要让机器观察什么是圆的，什么是方的，区分各种颜色和形状，然后根据这些特征对某种事物进行分类或预测。其实这就是回归问题。如何解决回归问题？我们用眼睛看到某样东西，可以阅读全文

posted @ 2018-03-21 15:36 残阳飞雪阅读(1129) 评论(0) 推荐(0) 编辑

result

摘要：/** * Created by lkl on 2017/7/31. *//** * Created by lkl on 2017/6/26. *///spark-shell --driver-class-path /home/hadoop/test/mysqljdbc.jarimport java 阅读全文

posted @ 2018-03-14 12:34 残阳飞雪阅读(256) 评论(0) 推荐(0) 编辑

titlesplit

摘要：/** * Created by lkl on 2017/6/26. *///spark-shell --driver-class-path /home/hadoop/test/mysqljdbc.jarimport java.sql.{DriverManager, ResultSet}import 阅读全文

posted @ 2018-03-14 12:34 残阳飞雪阅读(246) 评论(0) 推荐(0) 编辑

layer

摘要：/** * Created by lkl on 2017/6/27. */import java.sql.{DriverManager, ResultSet}import org.apache.spark.SparkContextimport org.apache.spark.SparkConfim 阅读全文

posted @ 2018-03-14 12:31 残阳飞雪阅读(381) 评论(0) 推荐(0) 编辑

categorys

摘要：//spark-shell --driver-class-path /home/hadoop/test/mysqljdbc.jarimport java.sql.DriverManager// --queue szbigdataimport org.apache.spark.{SparkConf, 阅读全文

posted @ 2018-03-14 12:30 残阳飞雪阅读(283) 评论(0) 推荐(0) 编辑

决策树-过程

摘要：1. 决策树的基本概念我们这里介绍一下一个比较简单的机器学习系统决策树. 它的概念最容易理解, 因为人类的许多决策实际上就是一个决策树. 通常使用的分类回归树（class and regress tree）是一个二叉树。它的形式一般为：每个方框代表一个节点. 每个非叶子节点有2个分支, 一个是阅读全文

posted @ 2018-02-27 14:01 残阳飞雪阅读(8101) 评论(0) 推荐(0) 编辑

spark LinearRegression 预测缺失字段的值

摘要：最近在做金融科技建模的时候，字段里面很多缺少值得时候，模型对于新用户的预测会出现很大的不稳定，即PSI较大的情况。虽然我们依据字段IV值得大小不断的在调整字段且开发新变量，但是很多IV值很大的字段直接用平均值、或者0代替显然不够合理。所以，我们在尝试把字段缺失值当作需要预测的值，把该字段不缺失的阅读全文

posted @ 2018-02-01 10:06 残阳飞雪阅读(925) 评论(0) 推荐(0) 编辑

scala分析数据作图

摘要：参考网址：https://stackoverflow.com/questions/36984780/spark-shell-how-to-use-breeze-viz 刚开始按照网上的教程只导入了两个包，以为是版本问题，报错一直折腾，没想到看到参考网址，下载了另外5个包后，作图才完成，完整导入的包阅读全文

posted @ 2018-01-29 11:40 残阳飞雪阅读(1600) 评论(0) 推荐(0) 编辑

机器学习结果加ID插入数据库源码

摘要：import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.t... 阅读全文

posted @ 2018-01-29 11:32 残阳飞雪阅读(254) 评论(0) 推荐(0) 编辑

GBT算法在拖动滑块辨别人还是机器中的应用

摘要：1.数据源格式：（x,y,t),第一个值x是x坐标范围是1-250的整数，y是1-10的整数，t是滑块从上一个坐标到下一个坐标的时间差，ok是判断是人操作的，Fail是判断是机器操作的，数据看的出，同一个记录里面的同一个点,即x,y都相同，但是t不同，以此分析，如果同一个点只出现一次，则该点记录为1 阅读全文

posted @ 2017-12-15 09:42 残阳飞雪阅读(752) 评论(0) 推荐(0) 编辑

决策树之Cart算法一

摘要：Contents 1. CART算法的认识 2. CART算法的原理 3. CART算法的实现 1. CART算法的认识 Classification And Regression Tree，即分类回归树算法，简称CART算法，它是决策树的一种实现，通常决策树主要有三种实现，分别是ID3算法，CA 阅读全文

posted @ 2017-11-09 10:07 残阳飞雪阅读(2085) 评论(0) 推荐(0) 编辑

残阳飞雪

随笔分类 - 数据挖掘算法