2018年1月10日

海量数据问题总结

摘要: 海量数据问题:数据量很大,无法直接用有限的内存存储,也就是无法一次性通过排序等处理数据。 Hash:hash本质上是一种映射函数,将键值映射为一个数值(存储位置)。查找的话当然键值冲突越少越好,但如果只是单纯的分成小文件,只要保证相同的数据在同一组,冲不冲突也无所谓。 hash_map/hash_s 阅读全文

posted @ 2018-01-10 20:08 mdumpling 阅读(223) 评论(0) 推荐(0) 编辑

文本分类项目总结

摘要: 摘抄:https://zhuanlan.zhihu.com/p/25928551(原文地址) 一.传统文本分类 1)文本预处理 文本预处理过程是在文本中提取关键词表示文本的过程,中文文本处理中主要包括文本分词和去停用词两个阶段。 2)文本表示和特征提取 文本表示: 传统做法常用词袋模型(BOW, B 阅读全文

posted @ 2018-01-10 15:19 mdumpling 阅读(3229) 评论(0) 推荐(0) 编辑

导航