2010 年 5月随笔档案 - finallyly

摘要：一个预处理算法做了大半个学期吧，原以为是可以发paper的。可是现在发现，效果并不好，思路很复杂，而且效果不明显。不是我急功近利，而是这半年很可能是研究生期间唯一自由的半年研究时间。。。。。阅读全文

posted @ 2010-05-24 17:56 finallyly 阅读(188) 评论(1) 推荐(0) 编辑

摘要：（谨此拷贝献给正在上研或准备上研的同学及朋友）上海大学一位姓崔的老师说：“不可否认的是，研究生面临着比较大的生存压力，但是要平衡自己的方向，在没有生存威胁的情况下，要专注于学习。”他表示，在社会心理普遍比较浮躁的情况下，就要求研究生要拿出宽广的视野来，权衡自己眼前的利益和长远发展的基础，“疯狂做兼职是没有自信的表现。”他认为，研究生要从长远来看，... 阅读全文

posted @ 2010-05-24 10:28 finallyly 阅读(413) 评论(1) 推荐(2) 编辑

珍惜我最后15天的学习生活

摘要：珍惜我最后15天的学习生活珍惜我最后15天的学习生活珍惜我最后15天的学习生活阅读全文

posted @ 2010-05-21 19:18 finallyly 阅读(212) 评论(0) 推荐(0) 编辑

scipy 知识碎片

摘要：查看scipy函数说明from scipy.optimize import fsolvefrom scipy import *>>> info(fsolve)permutation matrix:置换矩阵：矩阵的每一行，每一列只有一个1元素，其他为0 元素R matrix: 阅读全文

posted @ 2010-05-16 14:54 finallyly 阅读(297) 评论(0) 推荐(0) 编辑

Apriori求频繁项集

摘要：使用语言Python实现的算法：寻找频繁项集源码如下：# -*- coding: cp936 -*-def candidate_gen(F_prior):#F_prior是一个双层list 为项目集 '''候选项集集合生成函数''' candidate=[] print '下面进行合并：' for list1 in F_prior:for list2 in F_prior: if list1!=N... 阅读全文

posted @ 2010-05-14 22:58 finallyly 阅读(1209) 评论(0) 推荐(1) 编辑

mysql python 汉字乱码的解决方案

摘要：1.想实现对一个二类文本问题的两种分类方法，首先要对文档集合的文本进行分词，然后建立倒排表，倒排表是借助于mysql数据库的，但是有一个众所周知的事情，mysql插入汉字会出现各种莫名奇妙的情况，首当其冲是插不进去，而获是插进去了，但是显示是乱码，然后将插入后的数据再读到程序中仍然是乱码。这归根结底是编码符号不一致的问题也就是。再解决这个问题的过程中，我参考了http://www.busfly.c... 阅读全文

posted @ 2010-05-14 21:52 finallyly 阅读(7518) 评论(7) 推荐(1) 编辑

mysql 乱码解决方案

摘要：再谈乱码问题，如何解决MYSQL数据中文乱码问题在之前的文章里，我已经提过如何解决JSP中乱码问题（解决tomcat下中文乱码问题），其中也详细解说了MYSQL乱码问题，相信通过里面的办法，肯定都已经解决了JSP里的乱码问题，不过还是有些人的MYSQL乱码问题没有得到解决，包括我自己，所以又找了一些资料，希望这次能完全解决MYSQL数据库的乱码问题。第一种方法，很精辟的总结：经常更换虚拟主机... 阅读全文

posted @ 2010-05-14 20:37 finallyly 阅读(33132) 评论(0) 推荐(2) 编辑

写在学期将要结尾处

摘要：还有两门考试，两个大作业……我的研究生课程学习阶段就戛然而止了。目前是考试为重心，大作业程序，可以得过且过的。。这学期选了五门专业课，每门课都有个project，网络挖掘应用的作业是个pilot paper。到目前形式来看，后面的大作业可能要应付了，毕竟要先以考试为主。我没有选修过统计学习基础之类的课程，但是这学期还特意选了统计的提高课，目的就是通过做大作业强迫自己去学习... 阅读全文

posted @ 2010-05-13 18:20 finallyly 阅读(305) 评论(0) 推荐(0) 编辑

2010年计算语言学分词作业——采用二元语法模型与viterbi算法分词

摘要：注意：本篇博文标红字部分为一处笔误的改正。非常感谢猎兔网开发工程师罗刚指出错误。欢迎大家光临我的博客指正各种思维不周，本人不拒绝严格的批评，只要能指出具体错误，和改进方案采用这种方法首先要弄懂1.什么是二元语法模型：二元语法模型也就是一阶马尔科夫链，更通俗的说法是：一个词出现与否，仅有它前面一个词有关。举个例子：P(成|结合）*P（结合）>P(合成|结) *P（结）表示 “结合... 阅读全文

posted @ 2010-05-11 14:14 finallyly 阅读(2871) 评论(4) 推荐(1) 编辑

本周工作安排

摘要：1. 统计应用案例分析论文《产生式模型与判别式模型》要读完2.统计案例分析和自然语言处理大作业合二为一，产生式模型分类器：采用多项式贝叶斯，判别式模型采用回归分类3. 网络挖掘程序部署到老师的服务器上，借助电脑的高性能将70W数据预处理工作完成建立倒排表。4. 英语听说考试租房OR买房资料整理。5. 这周将一些费时间的工作通通干掉，下周及以后复习考试，学习统计推断，以及论文调研。争取网络... 阅读全文

posted @ 2010-05-11 14:13 finallyly 阅读(225) 评论(0) 推荐(0) 编辑

2010年分词大作业 ---正向最大匹配

摘要：（1）语料库格式：为了防止我们作弊，老师对汉字进行了编码，让我们对“加密后”的文本进行分词两个竖线之间的部分对应于一个词。首先介绍正向最大匹配方法第一步：数据预处理与字典形成：首先语料库转化成一个set格式，set 包含语料库中出现的全部词形成字典Code highlighting produced by Actipro CodeHighlighter (freewar... 阅读全文

posted @ 2010-05-10 22:46 finallyly 阅读(1822) 评论(2) 推荐(0) 编辑

觉得自己目前还很菜。

摘要：想用C++实现一个数学味道很浓的算法，半监督多项式贝叶斯分类算法。觉得自己目前的能力还没有达到这个水平，还是先上Python吧。学C++，STL，可以找些简单的ACM做练笔。 C++处理字符串实在是太麻烦了，有个大牛同学写了个字符转换的类，看完后我吐血了。明天上课让他给讲讲吧。C++还是要学的，但是不能一口气吃成胖子，慢慢来。。。阅读全文

posted @ 2010-05-10 20:30 finallyly 阅读(323) 评论(2) 推荐(0) 编辑

公告百度安家

摘要：百度空间的第一文，在百度安家了。以后会在上面发一些关于研究问题的见解~。以前在博客园发表一些文章，但是后来发现，那里更适合讨论技术问题，是技术问题的天堂，所以在百度另开一个空间，和大牛们交流学术见解。从此以后，技术性的的文章备忘发在博客园，学术性的一些拙见放在百度空间。另外百度空间也会记录下自己求学生活的点点滴滴。我的三个主要博客为：（1）学术型博客：http://hi.baidu.com/... 阅读全文

posted @ 2010-05-08 11:54 finallyly 阅读(258) 评论(0) 推荐(0) 编辑

产生式模型 VS 判别式模型

摘要：Generative modelFrom Wikipedia, the free encyclopediaJump to: navigation, searchIn statistics, a generative model is a model for randomly generating observable data, typically given some hidden parame... 阅读全文

posted @ 2010-05-05 10:39 finallyly 阅读(2124) 评论(0) 推荐(1) 编辑

公告

搜索

常用链接

我的标签

积分与排名

随笔分类

随笔档案

NLP&WebMing&IR

机器学习与人工智能

朋友的博客

阅读排行榜

评论排行榜

推荐排行榜

最新评论