上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 29 下一页
摘要: 1,微软实习生招聘题目1 : String reorder时间限制:10000ms单点时限:1000ms内存限制:256MBDescriptionFor this question, your program is required to process an input string containing only ASCII characters between ‘0’ and ‘9’, or between ‘a’ and ‘z’ (including ‘0’, ‘9’, ‘a’, ‘z’).Your program should reorder and split all input 阅读全文
posted @ 2014-04-12 21:25 bobo的学习笔记 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 1,svmmean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.882,朴素贝页斯naive_bayes.MultinomialNB(alpha=.01)mean_precision:0.68,mean_recall:0.86,mean_f:0.76,mean_accuracy:0.67,mean_auc:0.84 3,逻辑回归mean_precision:0.82,mean_recall:0.89,mean_f:0.85,mean_accuracy:0.80,mean_auc:0.91 4 阅读全文
posted @ 2014-03-31 22:59 bobo的学习笔记 阅读(272) 评论(0) 推荐(0) 编辑
摘要: http://grid.hust.edu.cn:8080/call/http://bbs.pinggu.org/thread-963907-1-1.htmlhttp://www.wikicfp.com/cfp/homehttp://www.myhuiban.com/index.php?sort=locationhttp://www.webist.org/学校的研究生学术投稿:http://bbs.byr.cn/#!article/GraduateUnion/7506 阅读全文
posted @ 2014-03-25 18:11 bobo的学习笔记 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 相关脚本:mean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.88 去除第一个属性:mean_precision:0.93,mean_recall:0.78,mean_f:0.85,mean_accuracy:0.83,mean_auc:0.87 第二个属性:mean_precision:0.93,mean_recall:0.72,mean_f:0.81,mean_accuracy:0.79,mean_auc:0.80 第三个属性:mean_precision:0.94,mean_reca 阅读全文
posted @ 2014-03-24 23:25 bobo的学习笔记 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 1,统计基本数据条数的代码#!/bin/shroot_dir=/home/minelab/liweibo/remoteControlraw_data_dir=$root_dir/raw_dataresult_data_dir=$root_dir/result_datasrc_dir=$root_dir/srcraw_data_file=$raw_data_dir/遥控器行为数据0324.txtresult_data_file=$result_data_dir/遥控器行为数据0324.resultrm -rf $result_data_file#统计数据中包含显示频道名称的记录条数echo &q 阅读全文
posted @ 2014-03-24 22:22 bobo的学习笔记 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 详细的思路可以参照小论文树立0317关键词分为以下几类:t/****一些通用的过滤词,这些通用的过滤词可以使用和节目一起出现的词语,结合tf-idf看出来么?*****/ public static String[] tvTerms={"观看","收看","节目","电视","表演","演出"}; public static String[] channelTerms={"央视","中央电视台","春晚"," 阅读全文
posted @ 2014-03-17 20:43 bobo的学习笔记 阅读(598) 评论(0) 推荐(0) 编辑
摘要: Finding Core Topics: Topic Extraction with Clustering on Tweet挺水的文章,其中的借鉴可以是:1)以转发数作为微博质量的衡量标准,区分高质量微博和垃圾微博(或许可以综合考虑评论,转发,赞的数目?)2)通过聚类的方法进行话题提取,种子的选取是提取双引号以内的,以及首字母大写的。3)没有定量的评价,可以看看其如何进行定性的评价SEARCHINGTELEVISIONFRAGMENTSUSING MICRO-BLOGS: WHO IS ON#DWDDANDWHAT DO THETWEETSREPORT?1)n-gram结合tf-idf,结合微 阅读全文
posted @ 2014-03-09 20:52 bobo的学习笔记 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 关于指针的一点知识 易错点:不要以为指针作为形参传递就可以更改指针本身,只能改变指针指向对象的取值,指针本身的指向是不会变的!!记住任何参数传递都是值传递! 这种情况下的解决方法有两种:1)传递指针的指针或者指针的引用。2)将改变后的指针值作为函数的返回值 递归传参 1)全局变量;2)递归函数参数< 阅读全文
posted @ 2014-03-04 21:39 bobo的学习笔记 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 1,抽样样本的歧义性(根据比例,再日常用语中出现次数?)情非得已 941 59 94.1%时间都去哪儿了 589 411 58.9%符号中国 821 26 96.9%我的要求不算高 651 349 65.1%团圆饭 373 627 37.3%剑心书韵 95.1%说你什么好 45.8%我就这么个人 663 246 663/909卷珠帘 194 6 194/200扶不扶 828 828/931人到礼到 648 648/998 阅读全文
posted @ 2014-03-03 17:26 bobo的学习笔记 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 第一步:依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步:依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为:第三步:单独通过节目名称过滤的,保存在.title文件中(其实二三步可以合并)第四部:抽取 阅读全文
posted @ 2014-03-01 22:28 bobo的学习笔记 阅读(376) 评论(0) 推荐(0) 编辑
上一页 1 ··· 12 13 14 15 16 17 18 19 20 ··· 29 下一页