bobo的学习笔记

2014年4月12日

摘要： 1，微软实习生招聘题目1 : String reorder时间限制:10000ms单点时限:1000ms内存限制:256MBDescriptionFor this question, your program is required to process an input string containing only ASCII characters between ‘0’ and ‘9’, or between ‘a’ and ‘z’ (including ‘0’, ‘9’, ‘a’, ‘z’).Your program should reorder and split all input 阅读全文

posted @ 2014-04-12 21:25 bobo的学习笔记阅读(201) 评论(0) 推荐(0)

2014年3月31日

小论文实验讨论——不同的分类算法

摘要： 1，svmmean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.882，朴素贝页斯naive_bayes.MultinomialNB(alpha=.01)mean_precision:0.68,mean_recall:0.86,mean_f:0.76,mean_accuracy:0.67,mean_auc:0.84 3，逻辑回归mean_precision:0.82,mean_recall:0.89,mean_f:0.85,mean_accuracy:0.80,mean_auc:0.91 4 阅读全文

posted @ 2014-03-31 22:59 bobo的学习笔记阅读(284) 评论(0) 推荐(0)

2014年3月25日

论文网站相关链接

摘要： http://grid.hust.edu.cn:8080/call/http://bbs.pinggu.org/thread-963907-1-1.htmlhttp://www.wikicfp.com/cfp/homehttp://www.myhuiban.com/index.php?sort=locationhttp://www.webist.org/学校的研究生学术投稿：http://bbs.byr.cn/#!article/GraduateUnion/7506 阅读全文

posted @ 2014-03-25 18:11 bobo的学习笔记阅读(307) 评论(0) 推荐(0)

2014年3月24日

宵论文实验之——属性贡献度的实验

摘要：相关脚本：mean_precision:0.94,mean_recall:0.81,mean_f:0.87,mean_accuracy:0.85,mean_auc:0.88 去除第一个属性：mean_precision:0.93,mean_recall:0.78,mean_f:0.85,mean_accuracy:0.83,mean_auc:0.87 第二个属性：mean_precision:0.93,mean_recall:0.72,mean_f:0.81,mean_accuracy:0.79,mean_auc:0.80 第三个属性：mean_precision:0.94,mean_reca 阅读全文

posted @ 2014-03-24 23:25 bobo的学习笔记阅读(235) 评论(0) 推荐(0)

网络遥控器相关代码

摘要： 1，统计基本数据条数的代码#!/bin/shroot_dir=/home/minelab/liweibo/remoteControlraw_data_dir=$root_dir/raw_dataresult_data_dir=$root_dir/result_datasrc_dir=$root_dir/srcraw_data_file=$raw_data_dir/遥控器行为数据0324.txtresult_data_file=$result_data_dir/遥控器行为数据0324.resultrm -rf $result_data_file#统计数据中包含显示频道名称的记录条数echo &q 阅读全文

posted @ 2014-03-24 22:22 bobo的学习笔记阅读(254) 评论(0) 推荐(0)

2014年3月17日

论文keywords和规则匹配的baseline

摘要：详细的思路可以参照小论文树立0317关键词分为以下几类：t/****一些通用的过滤词，这些通用的过滤词可以使用和节目一起出现的词语，结合tf-idf看出来么？*****/ public static String[] tvTerms={"观看","收看","节目","电视","表演","演出"}; public static String[] channelTerms={"央视","中央电视台","春晚"," 阅读全文

posted @ 2014-03-17 20:43 bobo的学习笔记阅读(628) 评论(0) 推荐(0)

2014年3月9日

文献阅读梳理

摘要： Finding Core Topics: Topic Extraction with Clustering on Tweet挺水的文章，其中的借鉴可以是：1）以转发数作为微博质量的衡量标准，区分高质量微博和垃圾微博（或许可以综合考虑评论，转发，赞的数目？）2）通过聚类的方法进行话题提取，种子的选取是提取双引号以内的，以及首字母大写的。3）没有定量的评价，可以看看其如何进行定性的评价SEARCHINGTELEVISIONFRAGMENTSUSING MICRO-BLOGS: WHO IS ON#DWDDANDWHAT DO THETWEETSREPORT?1）n-gram结合tf-idf，结合微阅读全文

posted @ 2014-03-09 20:52 bobo的学习笔记阅读(236) 评论(0) 推荐(0)

2014年3月4日

数据结构回顾

摘要：关于指针的一点知识易错点：不要以为指针作为形参传递就可以更改指针本身，只能改变指针指向对象的取值，指针本身的指向是不会变的！！记住任何参数传递都是值传递！这种情况下的解决方法有两种：1）传递指针的指针或者指针的引用。2）将改变后的指针值作为函数的返回值递归传参 1)全局变量;2)递归函数参数< 阅读全文

posted @ 2014-03-04 21:39 bobo的学习笔记阅读(719) 评论(0) 推荐(0)

2014年3月3日

节目数据整理

摘要： 1，抽样样本的歧义性（根据比例，再日常用语中出现次数？）情非得已 941 59 94.1%时间都去哪儿了 589 411 58.9%符号中国 821 26 96.9%我的要求不算高 651 349 65.1%团圆饭 373 627 37.3%剑心书韵 95.1%说你什么好 45.8%我就这么个人 663 246 663/909卷珠帘 194 6 194/200扶不扶 828 828/931人到礼到 648 648/998 阅读全文

posted @ 2014-03-03 17:26 bobo的学习笔记阅读(212) 评论(0) 推荐(0)

2014年3月1日

论文二次处理流程

摘要：第一步：依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步：依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为：第三步：单独通过节目名称过滤的，保存在.title文件中（其实二三步可以合并）第四部：抽取阅读全文

posted @ 2014-03-01 22:28 bobo的学习笔记阅读(384) 评论(0) 推荐(0)

公告