Init¶

from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext

import datetime
import time

def fnGetAppName():

    currentSecond=datetime.datetime.now().second
    currentMinute=datetime.datetime.now().minute
    currentHour=datetime.datetime.now().hour

    currentDay=datetime.datetime.now().day
    currentMonth=datetime.datetime.now().month
    currentYear=datetime.datetime.now().year
    
    return "{}-{}-{}_{}-{}-{}".format(currentYear, currentMonth, currentDay, currentHour, currentMinute, currentSecond)

def fn_timer(a_func):

    def wrapTheFunction():
        time_start=time.time()
        
        a_func()
        
        time_end=time.time()
        print('totally cost {} sec'.format(time_end-time_start))
 
    return wrapTheFunction

appName = fnGetAppName()
print("appName: {}".format(appName))

# conf = SparkConf().setMaster("spark://node-master:7077").setAppName(appName)
conf = SparkConf().setMaster("local").setAppName(appName)

appName: 2019-11-13_13-1-31

Spark Context¶

sc = SparkContext(conf = conf)

Spark Session¶

spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

Spark Stream¶

ssc = StreamingContext(sc, 1)

Let's Go!¶

Load data¶

from __future__ import print_function
import sys
from pyspark.mllib.linalg import Vectors
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.classification import LogisticRegressionWithLBFGS, LogisticRegressionModel
from pyspark.mllib.util import MLUtils


##################################################
# Load and parse the data
##################################################
def parsePoint(line):
    values = [float(x) for x in line.split(' ')]
    return LabeledPoint(values[0], values[1:])


##################################################
# Change the label to [0,1]
##################################################
def sparsePoint(lp):
    new_label = 0;
    if lp.label == 1.0:
        new_label=1.0
    else:
        new_label=0.0

    return LabeledPoint(new_label, features=lp.features)

Load train data.¶

# (1) small dense data
# data_train = sc.textFile("/test/sample_svm_data.txt")
# parsedData_train = data_train.map(parsePoint)


# (2) large sparse data
# data_train = MLUtils.loadLibSVMFile(sc, "/dataset/a9a.txt")
data_train = MLUtils.loadLibSVMFile(sc, "/dataset/covtype.libsvm.binary")

data_train.take(10)

[LabeledPoint(1.0, (54,[0,1,2,3,5,6,7,8,9,10,42],[2596.0,51.0,3.0,258.0,510.0,221.0,232.0,148.0,6279.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2590.0,56.0,2.0,212.0,-6.0,390.0,220.0,235.0,151.0,6225.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,25],[2804.0,139.0,9.0,268.0,65.0,3180.0,234.0,238.0,135.0,6121.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,43],[2785.0,155.0,18.0,242.0,118.0,3090.0,238.0,238.0,122.0,6211.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2595.0,45.0,2.0,153.0,-1.0,391.0,220.0,234.0,150.0,6172.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2579.0,132.0,6.0,300.0,-15.0,67.0,230.0,237.0,140.0,6031.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2606.0,45.0,7.0,270.0,5.0,633.0,222.0,225.0,138.0,6256.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2605.0,49.0,4.0,234.0,7.0,573.0,222.0,230.0,144.0,6228.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2617.0,45.0,9.0,240.0,56.0,666.0,223.0,221.0,133.0,6244.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2612.0,59.0,10.0,247.0,11.0,636.0,228.0,219.0,124.0,6230.0,1.0,1.0]))]

parsedData_train = data_train.map(sparsePoint)

print(parsedData_train.count())
parsedData_train.take(10)

581012

[LabeledPoint(1.0, (54,[0,1,2,3,5,6,7,8,9,10,42],[2596.0,51.0,3.0,258.0,510.0,221.0,232.0,148.0,6279.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2590.0,56.0,2.0,212.0,-6.0,390.0,220.0,235.0,151.0,6225.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,25],[2804.0,139.0,9.0,268.0,65.0,3180.0,234.0,238.0,135.0,6121.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,43],[2785.0,155.0,18.0,242.0,118.0,3090.0,238.0,238.0,122.0,6211.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2595.0,45.0,2.0,153.0,-1.0,391.0,220.0,234.0,150.0,6172.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2579.0,132.0,6.0,300.0,-15.0,67.0,230.0,237.0,140.0,6031.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2606.0,45.0,7.0,270.0,5.0,633.0,222.0,225.0,138.0,6256.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2605.0,49.0,4.0,234.0,7.0,573.0,222.0,230.0,144.0,6228.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2617.0,45.0,9.0,240.0,56.0,666.0,223.0,221.0,133.0,6244.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2612.0,59.0,10.0,247.0,11.0,636.0,228.0,219.0,124.0,6230.0,1.0,1.0]))]

Load test data.¶

# (1) small dense data
# data = sc.textFile("/test/sample_svm_data.txt")
# parsedData_test = data.map(parsePoint)


# (2) large sparse data
# data_test = MLUtils.loadLibSVMFile(sc, "/dataset/a9a.t")
data_test = MLUtils.loadLibSVMFile(sc, "/dataset/covtype.libsvm.binary")

data_test.take(10)

[LabeledPoint(1.0, (54,[0,1,2,3,5,6,7,8,9,10,42],[2596.0,51.0,3.0,258.0,510.0,221.0,232.0,148.0,6279.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2590.0,56.0,2.0,212.0,-6.0,390.0,220.0,235.0,151.0,6225.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,25],[2804.0,139.0,9.0,268.0,65.0,3180.0,234.0,238.0,135.0,6121.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,43],[2785.0,155.0,18.0,242.0,118.0,3090.0,238.0,238.0,122.0,6211.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2595.0,45.0,2.0,153.0,-1.0,391.0,220.0,234.0,150.0,6172.0,1.0,1.0])),
 LabeledPoint(2.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2579.0,132.0,6.0,300.0,-15.0,67.0,230.0,237.0,140.0,6031.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2606.0,45.0,7.0,270.0,5.0,633.0,222.0,225.0,138.0,6256.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2605.0,49.0,4.0,234.0,7.0,573.0,222.0,230.0,144.0,6228.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2617.0,45.0,9.0,240.0,56.0,666.0,223.0,221.0,133.0,6244.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2612.0,59.0,10.0,247.0,11.0,636.0,228.0,219.0,124.0,6230.0,1.0,1.0]))]

parsedData_test = data_test.map(sparsePoint)

print(parsedData_test.count())
parsedData_test.take(10)

581012

[LabeledPoint(1.0, (54,[0,1,2,3,5,6,7,8,9,10,42],[2596.0,51.0,3.0,258.0,510.0,221.0,232.0,148.0,6279.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2590.0,56.0,2.0,212.0,-6.0,390.0,220.0,235.0,151.0,6225.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,25],[2804.0,139.0,9.0,268.0,65.0,3180.0,234.0,238.0,135.0,6121.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,43],[2785.0,155.0,18.0,242.0,118.0,3090.0,238.0,238.0,122.0,6211.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2595.0,45.0,2.0,153.0,-1.0,391.0,220.0,234.0,150.0,6172.0,1.0,1.0])),
 LabeledPoint(0.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2579.0,132.0,6.0,300.0,-15.0,67.0,230.0,237.0,140.0,6031.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2606.0,45.0,7.0,270.0,5.0,633.0,222.0,225.0,138.0,6256.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2605.0,49.0,4.0,234.0,7.0,573.0,222.0,230.0,144.0,6228.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2617.0,45.0,9.0,240.0,56.0,666.0,223.0,221.0,133.0,6244.0,1.0,1.0])),
 LabeledPoint(1.0, (54,[0,1,2,3,4,5,6,7,8,9,10,42],[2612.0,59.0,10.0,247.0,11.0,636.0,228.0,219.0,124.0,6230.0,1.0,1.0]))]

Train data¶

# Build the model
time_start=time.time()

model = LogisticRegressionWithLBFGS.train(parsedData_train)

time_end=time.time()
print('totally cost {} sec'.format(time_end-time_start))

totally cost 325.9337613582611 sec

Predict data¶

# Evaluating the model on training data
labelsAndPreds = parsedData_train.map(lambda p: (p.label, model.predict(p.features)))
trainErr = labelsAndPreds.filter(lambda lp: lp[0] != lp[1]).count() / float(parsedData_train.count())
print("Training Error = " + str(trainErr))

Training Error = 0.24482798978334355

# Evaluating the model on training data
labelsAndPreds = parsedData_test.map(lambda p: (p.label, model.predict(p.features)))
trainErr = labelsAndPreds.filter(lambda lp: lp[0] != lp[1]).count() / float(parsedData_test.count())
print("Prediction Error = " + str(trainErr))

Prediction Error = 0.24482798978334355

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[ML] LIBSVM Data: Classification, Regression, and Multi-label

一、机器学习模型的参数

二、二分类训练

单机sklearn

集群Spark.ml

Init¶

Spark Context¶

Spark Session¶

Spark Stream¶

Let's Go!¶

Load data¶

Load train data.¶

Load test data.¶

Train data¶

Predict data¶

公告