摘要: 我把它放在了google code上11.30完成了英文文本基于分词的范式huffman完全无损的压缩解压缩。对于24M的一个测试英文文本用普通的基于字节的压缩可压缩到13M,而基于分词的压缩当前测试是9.5M,gzip默认选项压缩到7.6M如果改进分词或者是对于更大的英文文本(这个测试文本中符号比较多稍微影响效果)基于词的压缩能取得更好的效果。下一步,改进分词,改进速度,尝试中文分词压缩,或者混... 阅读全文
posted @ 2009-11-21 00:39 阁子 阅读(1432) 评论(0) 推荐(0) 编辑