上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页

2020年6月18日

TF-IDF算法原理及其使用详解

摘要: 拜读了两篇大作,受益匪浅,感谢! 这孩子谁懂哈 https://blog.csdn.net/zhaomengszu/article/details/81452907 elly https://zhuanlan.zhihu.com/p/94446764 #如何准确抓住一篇文章内容的关键词? TF-ID 阅读全文

posted @ 2020-06-18 12:12 耀扬 阅读(1506) 评论(0) 推荐(0) 编辑

PageRank算法原理与实现

摘要: 参考 永恒之魂 https://zhuanlan.zhihu.com/p/86004363 讲得非常透彻,感谢! #1、PageRank ##1.1.简介 PageRank,又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创 阅读全文

posted @ 2020-06-18 10:37 耀扬 阅读(1077) 评论(0) 推荐(0) 编辑

2020年6月17日

AC自动机理解

摘要: AC自动机需要自备两个前置技能:KMP和trie树。 不要看代码,先理解思路。都不复杂,不理解的可以看我前面的博客。 参考了很多网上的教程:https://www.cnblogs.com/hyfhaha/p/10802604.html https://blog.csdn.net/qq_4081607 阅读全文

posted @ 2020-06-17 18:10 耀扬 阅读(412) 评论(0) 推荐(0) 编辑

2020年5月30日

最好理解的字符串匹配的KMP算法

摘要: 字符串匹配是计算机的基本任务之一。 一、KMP 算法简介 举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。 KMP 算法是由 阅读全文

posted @ 2020-05-30 16:24 耀扬 阅读(552) 评论(0) 推荐(0) 编辑

2020年5月28日

Trie树

摘要: Trie这个名字取自“retrieval”,检索,因为Trie可以只用一个前缀便可以在一部字典中找到想要的单词。 虽然发音与「Tree」一致,但为了将这种 字典树 与 普通二叉树 以示区别,程序员小吴一般读「Trie」尾部会重读一声,可以理解为读「TreeE」。 Trie树,也叫“字典树”。顾名思义 阅读全文

posted @ 2020-05-28 12:56 耀扬 阅读(143) 评论(0) 推荐(0) 编辑

2020年4月17日

学习wm.concat函数

摘要: 转自:https://www.cnblogs.com/qianyuliang/p/6649983.html oracle wm_concat(column) 实现 字段合并 如: shopping: |u_id| goods| num| | | | | |1 |苹果 |2| |2 |梨子 |5| | 阅读全文

posted @ 2020-04-17 11:55 耀扬 阅读(213) 评论(0) 推荐(0) 编辑

2020年4月4日

xgboost学习笔记

摘要: 一句话定义xgboost 很简单:Xgboost就是由很多CART树集成。 什么是CART树? 数据挖掘或机器学习中使用的决策树有两种主要类型: 分类树分析是指预测结果是数据所属的类(比如某个电影去看还是不看) 回归树分析是指预测结果可以被认为是实数(例如房屋的价格,或患者在医院中的逗留时间) 而术 阅读全文

posted @ 2020-04-04 15:32 耀扬 阅读(199) 评论(0) 推荐(0) 编辑

2020年4月2日

xgboost调参

摘要: 最近在做kaggle比赛,xgboost调参是个大问题。耗时,耗力啊。一个参数调半个小时啊。 看得懂吧,每个参数逐步的,调整取值范围。 建议: 每次调一个参数。 每次一个参数,输入3个数,例如:默认参数是 1, 候选范围你可以选择 【0.1,1,10】,一定要差一个数量级,这样可以圈定范围。然后通过 阅读全文

posted @ 2020-04-02 23:20 耀扬 阅读(746) 评论(0) 推荐(0) 编辑

2020年3月20日

软著源码粘贴助手

摘要: 文本文件汇集 阅读全文

posted @ 2020-03-20 18:35 耀扬 阅读(415) 评论(0) 推荐(0) 编辑

2020年3月19日

kaggle、天池比赛免费的GPU、TPU

摘要: 最近在做天池的项目。刚入行,没有gpu,内存只有8g。i5的笔记本。可怜啊。隔三差五的就崩溃一次。千辛万苦算是把数据处理完了。可是计算模型,真的不敢想啊。 最快的是跑了一个决策树,10多分钟吧。还能接受。但是效果不太理想。xgboost斗胆试了一次,跑了8个小时,崩溃了。 寻求帮助吧。 百度的飞浆不 阅读全文

posted @ 2020-03-19 21:15 耀扬 阅读(4912) 评论(1) 推荐(2) 编辑

2020年3月18日

pandas缺失值填充时遇到的问题

摘要: 打比赛时,遇到了一个问题。填充空白值的时候,如果使用 固定值,均值啥的都没问题。 但是我想用 但是每次都是报错 经过千辛万苦终于找到了问题的根源。 原来,我在加载数据的时候使用了一个 压缩内存的函数 这里面产生了一种新的数据类型 np.float16 而这种类型,在pandas里是没有的。 pand 阅读全文

posted @ 2020-03-18 23:28 耀扬 阅读(1574) 评论(0) 推荐(1) 编辑

2020年3月14日

pandas统计每一列缺失值函数

摘要: 感谢 https://www.jianshu.com/p/9f583668f386 感谢 https://www.cnblogs.com/Mrzhang3389/p/11166800.html 阅读全文

posted @ 2020-03-14 22:28 耀扬 阅读(969) 评论(0) 推荐(0) 编辑

2020年3月7日

pandas中滑窗rolling的使用

摘要: 函数原型和参数说明 window:表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。 min_periods:最少需要有值的观测点的数量,对于int类型,默认与window相等。 阅读全文

posted @ 2020-03-07 14:41 耀扬 阅读(1058) 评论(0) 推荐(0) 编辑

2020年3月6日

压缩pandas中dataframe内存

摘要: 从这里找的一个宝贝源码,可以大大缓解内存问题。https://www.kaggle.com/arjanso/reducing dataframe memory size by 65/code 阅读全文

posted @ 2020-03-06 23:02 耀扬 阅读(807) 评论(0) 推荐(0) 编辑

Pandas与SQL语句对照

摘要: Pandas与SQL语句对照 建立学生 课程数据库 表结构 student |字段名|类型|备注| | | | | |sno|char|学号| |sname|char|姓名| |ssex|bool|性别| |sage|int|年龄| |sdept|char|所在系| course |字段名|类型|备 阅读全文

posted @ 2020-03-06 16:18 耀扬 阅读(1524) 评论(0) 推荐(0) 编辑

上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 18 下一页

导航