摘要: 数据归一化:将所有数据映射到同一尺度 常用方式:最值归一化 均值方差归一化 最值归一化(normalization) 把所有数据都映射到0 1之间 适用范围: 适用于特征数组元素有明显的分布边界的情况(如学生成绩,最高100, 最低0),但是会受到outlier(异常值)的影响 均值方差归一化 把所 阅读全文
posted @ 2020-04-08 21:28 宋讼颂 阅读(1342) 评论(0) 推荐(0) 编辑
摘要: 超参数:算法运行前需要决定的参数 模型参数:算法运行过程中学习的参数 我们常说的“调参工程师”调试的基本都是超参数,超参数选择的好与坏在一定程度上决定了整个算法的好坏。 就拿KNN算法中的超参数K来说,虽然sklearn中对于KNN算法有默认的K=5,但这仅仅是在经验中得到的较为理想的值,在实际应用 阅读全文
posted @ 2020-04-03 22:40 宋讼颂 阅读(2759) 评论(1) 推荐(1) 编辑
摘要: KNN(K-Nearest Neighbors)算法,又称K近邻算法,单从字面意思我们就能知道,这个算法肯定是和距离有关的。 KNN算法的核心思想: 在一个特征空间中,如果某个样本身边和他最相邻的K个样本大多都属于一个类别,那么这个样本在很大程度上也属于这个类别,且该样本同样具有这个类别的特性。 其 阅读全文
posted @ 2020-03-26 20:52 宋讼颂 阅读(1041) 评论(0) 推荐(0) 编辑
摘要: 我们在使用pandas读取文件时,常会遇到某个字段为NaN。 一般情况下,这时因为文件中包含空值导致的,因为pandas默认会将 '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'N 阅读全文
posted @ 2020-01-05 12:06 宋讼颂 阅读(6441) 评论(0) 推荐(2) 编辑
摘要: 说在前边: 编码问题一直困扰着每一个程序员的编程之路,如果不将它彻底搞清楚,那么你的的这条路一定会走的格外艰辛,尤其是针对使用python的程序员来说,这一问题更加显著, 因为python有两个版本,这两个版本编码格式却完全不同,但我们却经常需要兼顾这两个版本,所以出现各种问题的几率就大了很多。 所 阅读全文
posted @ 2019-10-26 12:08 宋讼颂 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 从今天起,我会在这里记录一下学习深度学习所留下的足迹,目的也很简单,手头有近3w个已经标记好正确值得验证码,想要从头训练出一个可以使用的模型, 虽然我也知道网上的相关模型和demo很多,但是还是非常希望自己可以亲手搞一个能用的出来,学习书籍主要是:李金洪老师的《深度学习之Tensorflow 入门、 阅读全文
posted @ 2019-09-23 23:02 宋讼颂 阅读(1590) 评论(0) 推荐(0) 编辑
摘要: 最近将万方数据的爬取代码进行了重构,速度大概有10w每小时吧,因为属于公司项目,代码暂时就不开源了,所以在这里先说说思路和一些注意事项吧,顺带吐槽一下万方。 先上图: 其实逻辑也蛮简单的,医学类的期刊分了16个大类,那么首先手动将这16大类所对应的唯一id拿下来拼接出该类型的url,然后翻页请求它就 阅读全文
posted @ 2019-09-22 23:29 宋讼颂 阅读(627) 评论(0) 推荐(0) 编辑
摘要: 前提: 下载anaconda,然后创建一个python虚拟环境: 命令: conda create -n tf_cpu python=3.6 # (tf_cpu 是这个虚拟环境的名字) 切换到该虚拟环境下: 命令:activate tf_cpu 查看所有虚拟环境列表 命令:conda env lis 阅读全文
posted @ 2019-07-31 17:22 宋讼颂 阅读(2334) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/goforwards/p/8970070.html 阅读全文
posted @ 2019-04-22 15:56 宋讼颂 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1. 请简述三次握手和四次挥手: 答:首先TCP是传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接,在建立TCP连接时,需要客户端和服务器总共发送3个包。 三次握手的目的是连接服务器的指定端口、建立TCP连接、同步双方的序列号和确认号、交换TCP窗口大小信息,在socket编程中,客户 阅读全文
posted @ 2019-03-15 23:45 宋讼颂 阅读(1133) 评论(0) 推荐(0) 编辑