随笔档案「2014年3月」 - bobo的学习笔记

小论文实验讨论——不同的分类算法

摘要：1，svmmean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.882，朴素贝页斯naive_bayes.MultinomialNB(alpha=.01)mean_precision:0.68,mean_recall:0.86,mean_f:0.76,mean_accuracy:0.67,mean_auc:0.84 3，逻辑回归mean_precision:0.82,mean_recall:0.89,mean_f:0.85,mean_accuracy:0.80,mean_auc:0.91 4 阅读全文

posted @ 2014-03-31 22:59 bobo的学习笔记阅读(286) 评论(0) 推荐(0)

论文网站相关链接

摘要：http://grid.hust.edu.cn:8080/call/http://bbs.pinggu.org/thread-963907-1-1.htmlhttp://www.wikicfp.com/cfp/homehttp://www.myhuiban.com/index.php?sort=locationhttp://www.webist.org/学校的研究生学术投稿：http://bbs.byr.cn/#!article/GraduateUnion/7506 阅读全文

posted @ 2014-03-25 18:11 bobo的学习笔记阅读(308) 评论(0) 推荐(0)

宵论文实验之——属性贡献度的实验

摘要：相关脚本：mean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.88 去除第一个属性：mean_precision:0.93,mean_recall:0.78,mean_f:0.85,mean_accuracy:0.83,mean_auc:0.87 第二个属性：mean_precision:0.93,mean_recall:0.72,mean_f:0.81,mean_accuracy:0.79,mean_auc:0.80 第三个属性：mean_precision:0.94,mean_reca 阅读全文

posted @ 2014-03-24 23:25 bobo的学习笔记阅读(238) 评论(0) 推荐(0)

网络遥控器相关代码

摘要：1，统计基本数据条数的代码#!/bin/shroot_dir=/home/minelab/liweibo/remoteControlraw_data_dir=$root_dir/raw_dataresult_data_dir=$root_dir/result_datasrc_dir=$root_dir/srcraw_data_file=$raw_data_dir/遥控器行为数据0324.txtresult_data_file=$result_data_dir/遥控器行为数据0324.resultrm -rf $result_data_file#统计数据中包含显示频道名称的记录条数echo &q 阅读全文

posted @ 2014-03-24 22:22 bobo的学习笔记阅读(255) 评论(0) 推荐(0)

论文keywords和规则匹配的baseline

摘要：详细的思路可以参照小论文树立0317关键词分为以下几类：t/****一些通用的过滤词，这些通用的过滤词可以使用和节目一起出现的词语，结合tf-idf看出来么？*****/ public static String[] tvTerms={"观看","收看","节目","电视","表演","演出"}; public static String[] channelTerms={"央视","中央电视台","春晚"," 阅读全文

posted @ 2014-03-17 20:43 bobo的学习笔记阅读(630) 评论(0) 推荐(0)

文献阅读梳理

摘要：Finding Core Topics: Topic Extraction with Clustering on Tweet挺水的文章，其中的借鉴可以是：1）以转发数作为微博质量的衡量标准，区分高质量微博和垃圾微博（或许可以综合考虑评论，转发，赞的数目？）2）通过聚类的方法进行话题提取，种子的选取是提取双引号以内的，以及首字母大写的。3）没有定量的评价，可以看看其如何进行定性的评价SEARCHINGTELEVISIONFRAGMENTSUSING MICRO-BLOGS: WHO IS ON#DWDDANDWHAT DO THETWEETSREPORT?1）n-gram结合tf-idf，结合微阅读全文

posted @ 2014-03-09 20:52 bobo的学习笔记阅读(236) 评论(0) 推荐(0)

数据结构回顾

摘要：关于指针的一点知识易错点：不要以为指针作为形参传递就可以更改指针本身，只能改变指针指向对象的取值，指针本身的指向是不会变的！！记住任何参数传递都是值传递！这种情况下的解决方法有两种：1）传递指针的指针或者指针的引用。2）将改变后的指针值作为函数的返回值递归传参 1)全局变量;2)递归函数参数< 阅读全文

posted @ 2014-03-04 21:39 bobo的学习笔记阅读(722) 评论(0) 推荐(0)

节目数据整理

摘要：1，抽样样本的歧义性（根据比例，再日常用语中出现次数？）情非得已 941 59 94.1%时间都去哪儿了 589 411 58.9%符号中国 821 26 96.9%我的要求不算高 651 349 65.1%团圆饭 373 627 37.3%剑心书韵 95.1%说你什么好 45.8%我就这么个人 663 246 663/909卷珠帘 194 6 194/200扶不扶 828 828/931人到礼到 648 648/998 阅读全文

posted @ 2014-03-03 17:26 bobo的学习笔记阅读(214) 评论(0) 推荐(0)

论文二次处理流程

摘要：第一步：依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步：依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为：第三步：单独通过节目名称过滤的，保存在.title文件中（其实二三步可以合并）第四部：抽取阅读全文

posted @ 2014-03-01 22:28 bobo的学习笔记阅读(385) 评论(0) 推荐(0)

03 2014 档案

公告