逻辑回归的分布式实现 [Logistic Regression / Machine Learning / Spark ]

1- 问题提出

 


 

2- 逻辑回归

 


 

3- 理论推导

 


 

4- Python/Spark实现

复制代码
 1 # -*- coding: utf-8 -*-
 2 from pyspark import SparkContext
 3 from math import *
 4 
 5 theta = [0, 0, 0]    #初始theta值
 6 alpha = 0.001    #学习速率
 7 
 8 def inner(x, y):
 9     return sum([i*j for i,j in zip(x,y)])
10         
11 def func(lst):
12     h = (1 + exp(-inner(lst, theta)))**(-1)
13     return map(lambda x: (h - lst[-1]) * x, lst[:-1])
14 
15 
16 sc = SparkContext('local')
17 
18 rdd = sc.textFile('/home/freyr/logisticRegression.txt')\
19         .map(lambda line: map(float, line.strip().split(',')))\
20         .map(lambda lst: [1]+lst)
21 
22 
23 for i in range(400):
24     partheta = rdd.map(func)\
25                    .reduce(lambda x,y: [i+j for i,j in zip(x,y)])
26 
27     for j in range(3):
28         theta[j] = theta[j] - alpha * partheta[j]
29 
30 print 'theta = %s' % theta
复制代码

 PS: logisticRegression.txt

posted @   m_CHaN  阅读(2046)  评论(0编辑  收藏  举报
编辑推荐:
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
阅读排行:
· 软件产品开发中常见的10个问题及处理方法
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· MQ 如何保证数据一致性?
· 《HelloGitHub》第 108 期
点击右上角即可分享
微信分享提示