Loading

摘要: 数据预处理 处理数据缺失 方法 具体措施 忽略 直接删除,简单粗暴,缺失数据少的时候很管用 手动填充 重新收集数据,需要某些领域的专业知识,可行性不高 自动填充 取中位数或者平均数 离群点检测 OUTLIER 世界之大,无奇不有,有时候明显和其他数据格格不入的数据,并不一定是错误的点,比如我们身边平 阅读全文
posted @ 2021-09-30 14:17 折木家的招财猫 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 数据可视化 EDA探索性数据分析exploded data analysis 主要介绍工具的使用 matplotlib、seaborn BI business information 集成工具 Power BI Tableau Fine BI Metabase superset 代码工具 Matpl 阅读全文
posted @ 2021-09-30 14:11 折木家的招财猫 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 最近在学机器学习的相关内容,看到决策树这一块提到了信息增益等内容,在此做下笔记 信息&信息熵&信息增益 信息 所谓信息,引用香农的话,信息即消除不确定性的东西,十分形象 定义系统$X$,发生了事件$x_i$,其中$i∈{0,1,2,···,n}$ 则从事件$x_i$中可以得到的信息量为 \(I(x_ 阅读全文
posted @ 2021-09-20 18:39 折木家的招财猫 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 导论 数据挖掘,单纯从字面意思理解,可能会存在误区,认为只是像爬虫一样做着简单重复劳动,而这只是冰山一角,更加全面的解释我认为应该是从数据中挖掘到价值和规律。 数据矿——数据集 总结一下数据来源 data.gov 美国政府公开数据集 kaggle open-EI UCI公开数据库 “挖掘机”——数据 阅读全文
posted @ 2021-09-17 18:16 折木家的招财猫 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 拆包粘包处理 在传输大文件的时候,很显然并不能一次性直接把大文件交给对方,只能一个一个分割开来上交。 收集了一下网友的回答,专业一点: 应用程序写入的数据大于套接字缓冲区大小,这将会发生拆包 应用程序写入数据小于套接字缓冲区大小,网卡将应用多次写入的数据发送到网络上,这将会发生粘包 进行MSS(最大 阅读全文
posted @ 2021-08-14 11:58 折木家的招财猫 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 随便写写,慢慢记录 此栏目专门用于记录一些阅读代码过程中看到的一些比较奇怪的写法,之前看到的一些奇怪的写法没能记录下来现在可能又看不懂了,但是单独开一篇专栏又很费时间,这个想法就作罢了很久,现如今以随笔或者说摘录的形式呈现出来,后续慢慢补充。 1.while(~scanf("%d",m)); sca 阅读全文
posted @ 2021-05-02 11:33 折木家的招财猫 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 写在前面 之前写的博文比较匆忙,不是很细致,排版也有些混乱,现在考研结束了,时间比较充沛,之后的学习内容会陆续同步到博客记录下来,不过以前的Blog可能完善更新会排到比较后面,因为看到自己惨不忍睹的排版还是挺难受的。因此现在占个坑位,提醒以后的自己要把这个任务完成下去,毕竟我也是从他人的博客中收益很 阅读全文
posted @ 2021-04-19 20:30 折木家的招财猫 阅读(120) 评论(0) 推荐(0) 编辑
摘要: Unit1 Computer and Computer Science Section A 计算机概述 Ⅰ介绍 所谓计算机,就是一台可以接收一组指令或者一个程序,然后以计算数据或者操纵其他形式的信息的方式来执行这个程序的电子设备。 得益于计算机的发展,现代世界涌现出众多先进科技。不同类型,不同尺寸的 阅读全文
posted @ 2021-01-10 22:40 折木家的招财猫 阅读(422) 评论(0) 推荐(0) 编辑