随笔分类 - paper prepare
摘要:论文投递相关:http://5icccnt.com/对应的修改信息为:https://www.easychair.org/conferences/login_registered.cgi?t=11467218.PqseQ167GJH83Grmbobofangwei;常用而http://158.132...
阅读全文
摘要:http://grid.hust.edu.cn:8080/call/http://bbs.pinggu.org/thread-963907-1-1.htmlhttp://www.wikicfp.com/cfp/homehttp://www.myhuiban.com/index.php?sort=locationhttp://www.webist.org/学校的研究生学术投稿:http://bbs.byr.cn/#!article/GraduateUnion/7506
阅读全文
摘要:详细的思路可以参照小论文树立0317关键词分为以下几类:t/****一些通用的过滤词,这些通用的过滤词可以使用和节目一起出现的词语,结合tf-idf看出来么?*****/ public static String[] tvTerms={"观看","收看","节目","电视","表演","演出"}; public static String[] channelTerms={"央视","中央电视台","春晚","
阅读全文
摘要:Finding Core Topics: Topic Extraction with Clustering on Tweet挺水的文章,其中的借鉴可以是:1)以转发数作为微博质量的衡量标准,区分高质量微博和垃圾微博(或许可以综合考虑评论,转发,赞的数目?)2)通过聚类的方法进行话题提取,种子的选取是提取双引号以内的,以及首字母大写的。3)没有定量的评价,可以看看其如何进行定性的评价SEARCHINGTELEVISIONFRAGMENTSUSING MICRO-BLOGS: WHO IS ON#DWDDANDWHAT DO THETWEETSREPORT?1)n-gram结合tf-idf,结合微
阅读全文
摘要:第一步:依据conf目录下的program.list文件在raw_data下面建立一个各个节目名称的文件夹依据conf目录下的program_keywords文件在各个节目路径下面建立该节目对应的过滤词文件第二步:依据节目的过滤词从sina_weibo.data中根据每个节目下的若干个关键词依次进行过滤得到对应的program.data文件格式为提取到的字段为微博id($2) 用户id($3) 创建时间($5) 转发($11) 评论($12) 赞($13) 内容($6) 以上两个步骤处理的完整脚本文件为:第三步:单独通过节目名称过滤的,保存在.title文件中(其实二三步可以合并)第四部:抽取
阅读全文
摘要:社交媒体之与电视:一些标题:电视也微博;当微博遇上电视 当在微博上集体吐槽春晚成了时尚之时,其一就是让拉动微博人气,在大型事件之时,突显微博的实力。关于微博与微信朋友圈,我一向认为,微博是广场效应,微信朋友圈是俱乐部性质的朋友社交,核心差别就在于微博可以随手转发,但朋友圈不可以。那么,当面对公众事件之时,微博的广场效应更有扩散性。 在地震等大型公众事件发生时,想获得更多信息,还得是微博。微博与微信朋友圈,不能相互替代。但随着微信朋友圈的火爆,微博也需要借助事件聚拢人气。 其二,就是把年轻人再拉回电视前。90后已经有很多自己的娱乐方式了,不愿意再与家人一起在电视前守岁,一边玩自己的Party..
阅读全文
摘要:一、解析用户原始信息的json文件#!/usr/bin/python# -*- coding=utf-8 -*-import osimport sysimport jsondef main(): root_dir = sys.argv[1] province_file = root_dir +"/conf/province.list" fin = open(province_file, 'r') provinces = set() for line in fin: province = line.strip() province...
阅读全文
摘要:还存在的问题是,对于其中分词借助的库还存在问题参考此篇链接http://www.cnblogs.com/ywl925/archive/2013/08/26/3275878.html具体代码部分:具体代码在老电脑linux系统中下面这个类:主要是,1列出某个目录下的所有文件名。2,读取某个特定文件package com.bobo.paper.util;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import
阅读全文
摘要:1,android sensors introductionhttp://developer.android.com/guide/topics/sensors/sensors_overview.htmlhttp://wiki.funf-open-sensing-framework.googlecode.com/git/docs/index.html2,funf source codehttp://code.google.com/p/funf-open-sensing-framework/funf Tutorialhttp://code.google.com/p/funf-open-sensin
阅读全文
摘要:面试中一些有用的算法题目讲解:关于funf的一些东西:http://inabox.funf.org/info/“结构之法,算法之道”博客http://www.cnblogs.com/v-July-v/archive/2011/06/14/2770530.html1,lda各种语言的开源实现http://www.zhizhihu.com/html/y2010/1465.html2,集中开源数据挖掘工具numpy tutial :http://wiki.scipy.org/Tentative_NumPy_Tutorialscikit-learn:https://pypi.python.org/py
阅读全文
摘要:分类算法:C4.5 ,svm,knn,朴素贝页斯,cart聚类算法:k-means,em关联挖掘算法:apriori其他:Adaboost用于综合多种分类算法1,C4.5 一种决策树算法,用于分类参见http://blog.csdn.net/aladdina/article/details/4141048貌似之前找到一篇更详细的分析2,k-means,聚类算法http://blog.csdn.net/aladdina/article/details/41410893,svm 支持向量机 用于统计分类及回归分析,用于分类http://blog.csdn.net/aladdina/article/
阅读全文
摘要:算法原则之一:优先尝试简单原则。1,朴素贝叶斯分类:算法使用前提:所有变量对分类均是有用的,即输出依赖于所有的属性;这些变量是相互独立的,即不相关的。之所以称为“朴素”,就是因为这些假设从未被证实过。http://www.cnblogs.com/zhangchaoyang/articles/2586402.html(1)如果出现0频现象的话,就违背了基本假设,输出依赖于所有属性,此时需要进行平滑处理(2)如果属性取值为连续数值变量(数值属性的时候),假定服从正太分布。(3)朴素贝叶斯可以用于文档分类(上述公式怎么看?)朴素贝叶斯未必不优于其他方法。2,归纳决策树ID3:http://www.c
阅读全文