2020 年 3月 26 日随笔档案 - kog_maw

2020年3月26日

摘要：逻辑回归是二分类问题，与其他回归不同，逻辑回归可以给出确切的概率值，哪个类别的数量少，判定概率值就是指的这个类别，这个类别即是正例逻辑回归的损失函数称为对数似然损失函数，但其只能通过梯度下降法求解逻辑回归sklearn的API：from sklearn.linear_model import L 阅读全文

posted @ 2020-03-26 23:28 kog_maw 阅读(139) 评论(0) 推荐(0) 编辑

第十四节模型的保存和加载

摘要：已经得到理想的模型以后，可以通过sklearn中的 from sklearn.externals import joblib 将模型保存下来，下次可以直接将想要预测的数据给入就好了 from sklearn.datasets import load_boston from sklearn.linea 阅读全文

posted @ 2020-03-26 23:07 kog_maw 阅读(145) 评论(0) 推荐(0) 编辑

第十三节岭回归（L2正则化）解决过拟合问题

摘要：岭回归sklearn的API：from sklearn.linear_model import Ridge 通过调节模型中的参数alpha的值来调节正则化的力度，力度越大高次项的系数越小，逐渐趋近于0，但是不会等于0，alpha一般去0-1之间的小数，或者1-10之间的整数，可以通过网格搜索去寻找最阅读全文

posted @ 2020-03-26 22:53 kog_maw 阅读(583) 评论(0) 推荐(0) 编辑

第十二节线性回归：波士顿房价预测

摘要：线性回归重要概念：损失函数：预测值偏离真实值的度量，损失越小，拟合越好损失函数的两种求解方式：最小二乘法：直接求解，使用于小样本量，小于10w，sklearn的API：from sklearn.linear_model import LinearRegression 梯度下降：适合大样本量，大阅读全文

posted @ 2020-03-26 21:23 kog_maw 阅读(621) 评论(0) 推荐(0) 编辑

第十二节 gevent多任务

摘要： import geventfrom gevent import monkeyimport timemonkey.patch_all() # 将程序中用到的耗时模块操作的代码，换为gevent中自己实现的模块def f(n): for x in range(n): print(gevent.getcu 阅读全文

posted @ 2020-03-26 16:57 kog_maw 阅读(120) 评论(0) 推荐(0) 编辑

第十一节 yield实现多任务

摘要： import timedef test1(): while True: print('.....1......') time.sleep(0.2) yielddef test2(): while True: print('......2......') time.sleep(0.2) yieldde 阅读全文

posted @ 2020-03-26 16:56 kog_maw 阅读(153) 评论(0) 推荐(0) 编辑

第十节 next和send取生成器的值

摘要： # def create_num(all_num):# a, b = 0, 1# current_num = 0# while current_num <= all_num:# yield a# a, b = b, a+b# current_num += 1# return 'ok....'## o 阅读全文

posted @ 2020-03-26 16:55 kog_maw 阅读(183) 评论(0) 推荐(0) 编辑

第九节生成器

摘要： def create_num(all_num): a, b = 0, 1 current_num = 0 while current_num <= all_num: yield a # 如果一个函数中有yield语句，那么这个就不再是一个函数，而是一个生成器模板 a, b = b, a+b curr 阅读全文

posted @ 2020-03-26 16:54 kog_maw 阅读(151) 评论(0) 推荐(0) 编辑

第八节迭代器的运用

摘要： 1 from collections.abc import Iterable 2 3 ''' 4 迭代器的作用，通过迭代器生成需要的数据，而不是事先放进一个列表里存储，节省大量内存空间 5 ''' 6 7 # 比如想要从1到1000的数字，不是提前准备一个列表，而是需要的时候临时用xrange（10 阅读全文

posted @ 2020-03-26 16:53 kog_maw 阅读(132) 评论(0) 推荐(0) 编辑

第七节可迭代对象

摘要： 1 from collections.abc import Iterable 2 from collections.abc import Iterator 3 4 # 判断是否是可迭代对象 5 print(isinstance([11, 22, 33], Iterable)) 6 7 class C 阅读全文

posted @ 2020-03-26 16:52 kog_maw 阅读(151) 评论(0) 推荐(0) 编辑

第六节多进程拷贝文件

摘要： 1 import os 2 import multiprocessing 3 import os 4 import time 5 6 def copy_file(old_file, new_file, q): 7 """拷贝数据""" 8 old_f = open(old_file, 'rb') 9 阅读全文

posted @ 2020-03-26 16:51 kog_maw 阅读(153) 评论(0) 推荐(0) 编辑

第五节进程池

摘要： 1 from multiprocessing.pool import Pool 2 import os, time, random 3 4 def worker(msg): 5 t_start = time.time() 6 print('%s开始执行，进程号为%d' % (msg, os.getp 阅读全文

posted @ 2020-03-26 16:50 kog_maw 阅读(113) 评论(0) 推荐(0) 编辑

第四节多进程中的队列

摘要： 1 import multiprocessing 2 3 ''' 4 q = multiprocessing.Queue(3) 5 q.put(1) 6 q.put_nowait(0) 7 q.get() 8 q.get_nowait() 9 q.full() 10 q.empty() 11 # 放阅读全文

posted @ 2020-03-26 16:49 kog_maw 阅读(100) 评论(0) 推荐(0) 编辑

第三节多线程udp服务器

摘要： 1 import threading 2 import socket 3 4 def recv_msg(udp_socket): 5 recv_data = udp_socket.recvfrom(1024) 6 print(recv_data) 7 8 def send_msg(udp_socke 阅读全文

posted @ 2020-03-26 16:48 kog_maw 阅读(330) 评论(0) 推荐(0) 编辑

第二节 tcp

摘要： tcp严格区分客户端和服务器，udp则没有，tcp需要通过三次握手四次挥手来保证数据传输的安全性，而udp没有 1 import socket 2 3 def main(): 4 '''客户端''' 5 # 1、创建套接字 6 tcp_client_socket = socket.socket(so 阅读全文

posted @ 2020-03-26 16:47 kog_maw 阅读(117) 评论(0) 推荐(0) 编辑

第一节 udp

摘要： 1 import socket 2 3 def send_msg(udp_socket): 4 """发送消息""" 5 # 获取要发送的内容 6 dest_ip = input('请输入对方的IP：') 7 dest_port = int(input('请输入对方的端口号：')) 8 send_d 阅读全文

posted @ 2020-03-26 16:43 kog_maw 阅读(127) 评论(0) 推荐(0) 编辑

第11节随机深林预测泰坦尼克生存案列

摘要： # 集成学习方法：集成学习是通过建立几个模型组合来解决单一预测问题，它的工作原理是生成对个分类器/模型，各自独立地学习和做出预测，最后结合成预测单预测，因此优于任何一个单分类做出的预测 # 随机森林就是包含多个决策树的分类器，并且输出的类别是由个别树输出的类别的众数而定 import pandas 阅读全文

posted @ 2020-03-26 16:40 kog_maw 阅读(190) 评论(0) 推荐(0) 编辑

第10节决策树泰坦尼克生存预测

摘要：决策树重要概念：信息熵：信息越纯信息熵越小，信息越杂信息熵越大，决策树生成的原则就是不断减小信息熵的过程，而分支依据就是哪个变量提供信息增益（信息增益比，基尼系数）越大，就选择哪个变量作为分类依据衡量信息熵变化大小的指标：信息增益，信息增益比，基尼系数（sklearn默认），三者的基本原则都是计阅读全文

posted @ 2020-03-26 16:35 kog_maw 阅读(256) 评论(0) 推荐(0) 编辑

第九节模型选择和调优

摘要： # 交叉验证：将拿到的训练数据，分为训练集和验证集，以下图为例：将数据分成四份，其中一份作为验证集，然后经过5次测试，每次更换不同的验证集，即得到5组模型的结果，取平均值作为最终结果，又称4折交叉验证，一般经验都是做10折交叉验证模型调优最主要的是在业务方向进行，大概占到80%的贡献度，而参数调优阅读全文

posted @ 2020-03-26 14:15 kog_maw 阅读(268) 评论(0) 推荐(0) 编辑

第八节模型评估

摘要：二分类模型评估，多分类转换成二分类# 最常用的是准确率，即预测结果正确的百分比# 混淆矩阵：在分类任务下，预测结果与正确标记之间存在四种不同的组合，构成混淆矩阵（适用于多分类），真正例TP，伪正例FP，伪反例FN，真反例TN# 混淆矩阵中的召回率：真实为正例的样本中预测结果为正例的比例（查的全，对正阅读全文

posted @ 2020-03-26 14:13 kog_maw 阅读(167) 评论(0) 推荐(0) 编辑

kog_maw

公告