摘要:
直到最近才使用大名鼎鼎的boost库,从什么都不知道到现在能用,也算经历了不少事情。使用boost首先就需要编译,然后才可以使用,编译就是第一个大问题,详细情况如下:boost库版本:boost 1.48.0目标平台:windows xp SP3,Linux Ubuntu 2.6.24-22-generic。1. Windows XP SP3 和 VS2011 下的编译和使用a.使用自启动程序bootstrap.batb. 在cmd中编译,具体的选项设置可以google 一下,注意的是在windows下variant=debug release都是可以的,也可以生成静态库或者动态库,可以选用s 阅读全文
摘要:
算法是很头疼的事情,那就说明需要很好的方法和思路了,下面有一些做法可以借鉴的。1.为了不忘记,需要对一系列的内容写成blog,用自己的话来表达。2.需要对一个问题进行抽象和本质的思考。3.学习如何对一个东西的分析思路,而不是被具体的步骤所迷惑。4.(转自MIND HACKS,未经通知,直接偷来了,希望博主饶命啊)其实是对具体算法这一块,如何学习的建议寻找该算法的原始出处:TAOCP作为一个资料库是绝对优秀的,基础的算法只要你能想到的,几乎都可以在上面找到原始出处。查到原始出处之后(譬如一篇paper),就可以去网上搜来看了。因为最初的作者往往对一个方案的诞生过程最为了解。比如经典数据结构中的红 阅读全文
摘要:
机器翻译的大牛Och在2003提出的方法,用于统计机器翻译中对数线性模型参数的调整,这几天读了这篇论文,也算是有了点了解。写篇文章,要不然就忘了,哈哈。 Och在文章中提出在之前的参数调整方法中,参数的确定和最终的翻译质量并没有什么紧密的联系,比如在统计机器翻译的对数线性模型中feature的权重需要调整,使用的 准则就是如下的公式: ... 阅读全文
摘要:
一般来说每个程序都有输入和输出,可以使用各种方式来完成这点,比如在程序中写死了,或者从命令行得到输入和输出的文件名。如果采用从命令行得到输入和输出文件名,一个比较大的麻烦就是命令行参数的解析,有的时候... 阅读全文
摘要:
博客的目的 最近在学习关于机器翻译系统融合的一些知识,看了一些论文,希望为每一个看过的论文都写一篇文章,总结,总结,要不然全部都忘了,说的有可能不对,如果有不对的,希望大家说出来。 读的第一篇论文的名称是Improved word-level system combination for machine translation 。感觉这篇论文并没有说到极为详细的系统融合方法,对整... 阅读全文
摘要:
不同的翻译系统对于同一个源语言句子F会产生不同的翻译假设Ei,可以将这些翻译假设融合在一起,获得一个更好的结果。 系统融合的方法有三种,第一种是句子级别的系统融合,第二种是短语级别的系统融合,第三种是词汇级别的系统融合。 句子级别的系统融合就是从所有可能的翻译之中挑出最好的一个翻译,keypoint : 打分。 短语级别的系统融合就是根据各个系统的短语对齐表,从新对源语言句子F,重新解码,keypoint 是 解码。 词汇级别的系统融合是重新确定次序,重新选择词来组成新的句子。在这种想法中最终的是确定新句子的次序,就是单词想排列的次序,然后使用单句对的对齐,重新组成混淆网络,生成新... 阅读全文
摘要:
对于存储自然语言的文件,有可能采用了不同的编码,例如汉字的编码就有多种,UTF-8,GB2312,GB18030,ISO-8859等字符编码格式。当处理各种文件的时候,就需要在各种文件格式之间转换,由于UTF-8字符编码格式兼容于ASCII,且多字节编码,不存在大小端的问题,可以使用已有的C语言库字符串处理函数,处理起来较为方便。现在来看看将其他格式(GB2312,GB18030)转换成UTF-8。 使用python处理文件格式转换,需要使用codecs模块。使用是,先import codecs 。在codecs可以使用open,lookup函数来打开文件。open(filename,mod. 阅读全文
摘要:
在一家公司实习,遇到一个任务需要使用到stl的map , 这个容器的实现了字典的功能,由于key 为自定义类型,其实就是有两个元素的数组,这样stl就让你提供一个比较函数,实现<比较。STL的描述是这个运算符必须满足strict weak ordering 。具体的特性用离散数学的说法就是,反自反,反对称,传递的关系,如果不能实现这样的关系,那么存储元素的时候就会产生各种奇怪的错误,最普遍的就是元... 阅读全文
摘要:
新装了Ubuntu,于是就开始装LXR了。以前在不同的版本上也试过,基本上成少败多,真是悲剧啊。今天又重新装了,还是很顺利的。于是就遇到了几个问题。装好之后遇到问题,说是文件打不开,要么是文件不存在。主要的问题就是两点,一个就是建立一个以版本号命名的目录,将glimpse,genxref产生的与这个版本相关的索引信息全部放在对应的目录中。下一个问题就是权限问题,想了以下,还是设成0777吧,安全什么的就不管了,很方便是主要的,好像就是这么多事情了。呵呵 阅读全文
摘要:
现在正在学windbg,记录一些基本的知识。每次调试开始都会新开始一个workspace,其实就是跟工程差不多,记录了你这次调试的配置。当然有一个默认workspace,当你没有调试的时候。感觉最重要的就是设置符号表,每次都得弄好,要不然符号看不了的,设置如下.sympath srv*d:\symbols*http://msdl.microsoft.com/download/symbols,如果后面不跟参数,那就是显示整个符号表目录设置。还有就是装载符号(ld 模块名),强制重新装载(.reload)。 阅读全文