随笔 - 404  文章 - 0  评论 - 1037  阅读 - 136万 
05 2010 档案
原以为会不同的
摘要:一个预处理算法做了大半个学期吧,原以为是可以发paper的。可是现在发现,效果并不好,思路很复杂,而且效果不明显。不是我急功近利,而是这半年很可能是研究生期间唯一自由的半年研究时间。。。。。 阅读全文
posted @ 2010-05-24 17:56 finallyly 阅读(188) 评论(1) 推荐(0) 编辑
(转载)读研规划
摘要:(谨此拷贝献给正在上研或准备上研的同学及朋友) 上海大学一位姓崔的老师说:“不可否认的是,研究生面临着比较大的生存压力,但是要平衡自己的方向,在没有生存威胁的情况下,要专注于学习。”他表示,在社会心理普遍比较浮躁的情况下,就要求研究生要拿出宽广的视野来,权衡自己眼前的利益和长远发展的基础,“疯狂做兼职是没有自信的表现。”他认为,研究生要从长远来看,... 阅读全文
posted @ 2010-05-24 10:28 finallyly 阅读(413) 评论(1) 推荐(2) 编辑
珍惜我最后15天的学习生活
摘要:珍惜我最后15天的学习生活珍惜我最后15天的学习生活珍惜我最后15天的学习生活 阅读全文
posted @ 2010-05-21 19:18 finallyly 阅读(212) 评论(0) 推荐(0) 编辑
scipy 知识碎片
摘要:查看scipy函数说明from scipy.optimize import fsolvefrom scipy import *>>> info(fsolve)permutation matrix:置换矩阵:矩阵的每一行,每一列只有一个1元素,其他为0 元素R matrix: 阅读全文
posted @ 2010-05-16 14:54 finallyly 阅读(297) 评论(0) 推荐(0) 编辑
Apriori求频繁项集
摘要:使用语言Python实现的算法:寻找频繁项集源码如下:# -*- coding: cp936 -*-def candidate_gen(F_prior):#F_prior是一个双层list 为项目集 '''候选项集集合生成函数''' candidate=[] print '下面进行合并:' for list1 in F_prior:for list2 in F_prior: if list1!=N... 阅读全文
posted @ 2010-05-14 22:58 finallyly 阅读(1209) 评论(0) 推荐(1) 编辑
mysql python 汉字乱码的解决方案
摘要:1.想实现对一个二类文本问题的两种分类方法,首先要对文档集合的文本进行分词,然后建立倒排表,倒排表是借助于mysql数据库的,但是有一个众所周知的事情,mysql插入汉字会出现各种莫名奇妙的情况,首当其冲是插不进去,而获是插进去了,但是显示是乱码,然后将插入后的数据再读到程序中仍然是乱码。这归根结底是编码符号不一致的问题也就是。再解决这个问题的过程中,我参考了http://www.busfly.c... 阅读全文
posted @ 2010-05-14 21:52 finallyly 阅读(7518) 评论(7) 推荐(1) 编辑
mysql 乱码解决方案
摘要:再谈乱码问题,如何解决MYSQL数据中文乱码问题 在之前的文章里,我已经提过如何解决JSP中乱码问题(解决tomcat下中文乱码问题 ),其中也详细解说了MYSQL乱码问题,相信通过里面的办法,肯定都已经解决了JSP里的乱码问题,不过还是有些人的MYSQL乱码问题没有得到解决,包括我自己,所以又找了一些资料,希望这次能完全解决MYSQL数据库的乱码问题。 第一种方法,很精辟的总结:经常更换虚拟主机... 阅读全文
posted @ 2010-05-14 20:37 finallyly 阅读(33132) 评论(0) 推荐(2) 编辑
写在学期将要结尾处
摘要:还有两门考试,两个大作业……我的研究生课程学习阶段就戛然而止了。目前是考试为重心,大作业程序,可以得过且过的。。 这学期选了五门专业课,每门课都有个project,网络挖掘应用的作业是个pilot paper。到目前形式来看,后面的大作业可能要应付了,毕竟要先以考试为主。我没有选修过统计学习基础之类的课程,但是这学期还特意选了统计的提高课,目的就是通过做大作业强迫自己去学习... 阅读全文
posted @ 2010-05-13 18:20 finallyly 阅读(305) 评论(0) 推荐(0) 编辑
2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词
摘要:注意:本篇博文标红字部分为一处笔误的改正。非常感谢猎兔网开发工程师 罗刚指出错误。欢迎大家光临我的博客指正各种思维不周,本人不拒绝严格的批评,只要能指出具体错误,和改进方案采用这种方法首先要弄懂1.什么是二元语法模型:二元语法模型也就是一阶马尔科夫链,更通俗的说法是:一个词出现与否,仅有它前面一个词有关。举个例子:P(成|结合)*P(结合)>P(合成|结) *P(结)表示 “结合... 阅读全文
posted @ 2010-05-11 14:14 finallyly 阅读(2871) 评论(4) 推荐(1) 编辑
本周工作安排
摘要:1. 统计应用案例分析 论文 《产生式模型与判别式模型》要读完2.统计案例分析和自然语言处理大作业合二为一,产生式模型分类器:采用多项式贝叶斯,判别式模型采用 回归分类3. 网络挖掘程序部署到老师的服务器上,借助电脑的高性能将70W数据预处理工作完成建立倒排表。4. 英语听说考试 租房OR买房 资料整理。5. 这周将一些费时间的工作通通干掉,下周及以后复习考试,学习统计推断,以及论文调研。争取网络... 阅读全文
posted @ 2010-05-11 14:13 finallyly 阅读(225) 评论(0) 推荐(0) 编辑
2010年分词大作业 ---正向最大匹配
摘要:(1)语料库格式:为了防止我们作弊,老师对汉字进行了编码,让我们对“加密后”的文本进行分词两个竖线之间的部分对应于一个词。首先介绍 正向最大匹配方法第一步:数据预处理与字典形成:首先语料库转化成一个set格式,set 包含 语料库中出现的全部词形成字典Code highlighting produced by Actipro CodeHighlighter (freewar... 阅读全文
posted @ 2010-05-10 22:46 finallyly 阅读(1822) 评论(2) 推荐(0) 编辑
觉得自己目前还很菜。
摘要:想用C++实现一个数学味道很浓的算法,半监督多项式贝叶斯分类算法。觉得自己目前的能力还没有达到这个水平,还是先上Python吧。学C++,STL,可以找些简单的ACM做练笔。 C++处理字符串实在是太麻烦了,有个大牛同学写了个字符转换的类,看完后我吐血了。明天上课让他给讲讲吧。C++还是要学的,但是不能一口气吃成胖子,慢慢来。。。 阅读全文
posted @ 2010-05-10 20:30 finallyly 阅读(323) 评论(2) 推荐(0) 编辑
公告 百度安家
摘要:百度空间的第一文,在百度安家了。以后会在上面发一些关于研究问题的见解~。 以前在博客园发表一些文章,但是后来发现,那里更适合讨论技术问题,是技术问题的天堂,所以在百度另开一个空间,和大牛们交流学术见解。从此以后,技术性的的文章备忘发在博客园,学术性的一些拙见放在百度空间。另外百度空间也会记录下自己求学生活的点点滴滴。我的三个主要博客为: (1)学术型博客:http://hi.baidu.com/... 阅读全文
posted @ 2010-05-08 11:54 finallyly 阅读(258) 评论(0) 推荐(0) 编辑
产生式模型 VS 判别式模型
摘要:Generative modelFrom Wikipedia, the free encyclopediaJump to: navigation, searchIn statistics, a generative model is a model for randomly generating observable data, typically given some hidden parame... 阅读全文
posted @ 2010-05-05 10:39 finallyly 阅读(2124) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示