03 2014 档案
摘要:1,svmmean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.882,朴素贝页斯naive_bayes.MultinomialNB(alpha=.01)mean_precision:0.68,mean_recall:0.86,mean_f:0.76,mean_accuracy:0.67,mean_auc:0.84 3,逻辑回归mean_precision:0.82,mean_recall:0.89,mean_f:0.85,mean_accuracy:0.80,mean_auc:0.91 4
阅读全文
摘要:http://grid.hust.edu.cn:8080/call/http://bbs.pinggu.org/thread-963907-1-1.htmlhttp://www.wikicfp.com/cfp/homehttp://www.myhuiban.com/index.php?sort=locationhttp://www.webist.org/学校的研究生学术投稿:http://bbs.byr.cn/#!article/GraduateUnion/7506
阅读全文
摘要:相关脚本:mean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.88 去除第一个属性:mean_precision:0.93,mean_recall:0.78,mean_f:0.85,mean_accuracy:0.83,mean_auc:0.87 第二个属性:mean_precision:0.93,mean_recall:0.72,mean_f:0.81,mean_accuracy:0.79,mean_auc:0.80 第三个属性:mean_precision:0.94,mean_reca
阅读全文
摘要:1,统计基本数据条数的代码#!/bin/shroot_dir=/home/minelab/liweibo/remoteControlraw_data_dir=$root_dir/raw_dataresult_data_dir=$root_dir/result_datasrc_dir=$root_dir/srcraw_data_file=$raw_data_dir/遥控器行为数据0324.txtresult_data_file=$result_data_dir/遥控器行为数据0324.resultrm -rf $result_data_file#统计数据中包含显示频道名称的记录条数echo &q
阅读全文
摘要:详细的思路可以参照小论文树立0317关键词分为以下几类:t/****一些通用的过滤词,这些通用的过滤词可以使用和节目一起出现的词语,结合tf-idf看出来么?*****/ public static String[] tvTerms={"观看","收看","节目","电视","表演","演出"}; public static String[] channelTerms={"央视","中央电视台","春晚","
阅读全文
摘要:Finding Core Topics: Topic Extraction with Clustering on Tweet挺水的文章,其中的借鉴可以是:1)以转发数作为微博质量的衡量标准,区分高质量微博和垃圾微博(或许可以综合考虑评论,转发,赞的数目?)2)通过聚类的方法进行话题提取,种子的选取是提取双引号以内的,以及首字母大写的。3)没有定量的评价,可以看看其如何进行定性的评价SEARCHINGTELEVISIONFRAGMENTSUSING MICRO-BLOGS: WHO IS ON#DWDDANDWHAT DO THETWEETSREPORT?1)n-gram结合tf-idf,结合微
阅读全文
摘要:关于指针的一点知识 易错点:不要以为指针作为形参传递就可以更改指针本身,只能改变指针指向对象的取值,指针本身的指向是不会变的!!记住任何参数传递都是值传递! 这种情况下的解决方法有两种:1)传递指针的指针或者指针的引用。2)将改变后的指针值作为函数的返回值 递归传参 1)全局变量;2)递归函数参数<
阅读全文
摘要:1,抽样样本的歧义性(根据比例,再日常用语中出现次数?)情非得已 941 59 94.1%时间都去哪儿了 589 411 58.9%符号中国 821 26 96.9%我的要求不算高 651 349 65.1%团圆饭 373 627 37.3%剑心书韵 95.1%说你什么好 45.8%我就这么个人 663 246 663/909卷珠帘 194 6 194/200扶不扶 828 828/931人到礼到 648 648/998
阅读全文
摘要:第一步:依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步:依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为:第三步:单独通过节目名称过滤的,保存在.title文件中(其实二三步可以合并)第四部:抽取
阅读全文