摘要: 基础知识: K-means聚类算法 聚类,简单地说就是把相似的东西分到一组。同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”。 理想情况下,一个 classifier 会从它得到的训练集中进行“学习”, 从而具备对未知数据进行 阅读全文
posted @ 2015-01-19 17:38 努力的小叶子 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 100万条新浪微博用户的个人自定义标签信息 共四个字段 1、顺序ID号 2、用户Uid 3、标签内容(以英文逗号分隔) 4、用户昵称(部分用户昵称存在缺失,但Uid是完整的) 用户Uid、标签内容、用户昵称都是字符串(string)形式,以英文双引号区分,记录总共100万条,以\r \n 换行,UT 阅读全文
posted @ 2015-01-19 11:57 努力的小叶子 阅读(675) 评论(0) 推荐(0) 编辑