06 2018 档案

摘要:xgboost的实现方式为多颗CART树,其实xgboost就是类似于随机森林,但是与随机森林不同,他不是多个子树决策的结果,CART树最后会算出一个得分,是一个值,最后算出分类的时候,是多个值结合在一起用一个式子算出分类的。 这里只记录xgboost的使用方式: 阅读全文
posted @ 2018-06-28 22:10 下路派出所 阅读(447) 评论(0) 推荐(0)
摘要:jieba分词最重要的就是字典,我们一般用jieba的话是用的它通用的字典,这样在特定的环境中无法分成我们想要的效果,我们需要根据我们自己的生产环境自己添加我们的字典,然后下载jieba源码进行更改,里面分词用了TFIDF和Textrank算法来求关键词,如果求关键词时,在idf.txt文件中没有这 阅读全文
posted @ 2018-06-27 14:14 下路派出所 阅读(624) 评论(0) 推荐(0)
摘要:肘部法则:畸变程度的改善效果下降幅度最大的位置就是肘部,一般用畸变程度来确定最佳的值。 畸变程度:每个类别距离其该类中心点的距离称为畸变程度 阅读全文
posted @ 2018-06-26 10:42 下路派出所 阅读(2163) 评论(0) 推荐(0)