逻辑回归的分布式实现 [Logistic Regression / Machine Learning / Spark ]
1- 问题提出
2- 逻辑回归
3- 理论推导
4- Python/Spark实现
1 # -*- coding: utf-8 -*- 2 from pyspark import SparkContext 3 from math import * 4 5 theta = [0, 0, 0] #初始theta值 6 alpha = 0.001 #学习速率 7 8 def inner(x, y): 9 return sum([i*j for i,j in zip(x,y)]) 10 11 def func(lst): 12 h = (1 + exp(-inner(lst, theta)))**(-1) 13 return map(lambda x: (h - lst[-1]) * x, lst[:-1]) 14 15 16 sc = SparkContext('local') 17 18 rdd = sc.textFile('/home/freyr/logisticRegression.txt')\ 19 .map(lambda line: map(float, line.strip().split(',')))\ 20 .map(lambda lst: [1]+lst) 21 22 23 for i in range(400): 24 partheta = rdd.map(func)\ 25 .reduce(lambda x,y: [i+j for i,j in zip(x,y)]) 26 27 for j in range(3): 28 theta[j] = theta[j] - alpha * partheta[j] 29 30 print 'theta = %s' % theta
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 软件产品开发中常见的10个问题及处理方法
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· 软件产品开发中常见的10个问题及处理方法
· 互联网不景气了那就玩玩嵌入式吧,用纯.NET开发并制作一个智能桌面机器人(四):结合BotSharp
· Vite CVE-2025-30208 安全漏洞
· MQ 如何保证数据一致性?
· 《HelloGitHub》第 108 期