上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页

2011年9月12日

linux文件转码命令iconv (转)

摘要: linux系统里提供的文件转化编码的命令iconv,使用如下:iconv -t utf-8 -f gb2312 -c my_database.sql > new.sql-f 原编码-t 目标编码-c 忽略无法转换的字符 阅读全文

posted @ 2011-09-12 17:29 奋斗者 阅读(26186) 评论(0) 推荐(0) 编辑

simhash算法的原理(转)

摘要: 载自:http://hi.baidu.com/jrckkyy/blog/item/ea2fced9e6cb1fe738012fa9.html第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字节,所产生的签名也很可能差别极大。从这个意义上来说,要设计一个hash算法,对相似的内容产生的签名也相近,是更为艰难的任务,因为它的签名值 阅读全文

posted @ 2011-09-12 17:12 奋斗者 阅读(10599) 评论(0) 推荐(0) 编辑

simhash与Google的网页去重(转)

摘要: 载自:http://leoncom.org/?p=650607前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量夹角。但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大,对于Google这种处理万亿级别的网页的搜索引擎而言是不可接受的,simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹 阅读全文

posted @ 2011-09-12 17:10 奋斗者 阅读(4538) 评论(0) 推荐(0) 编辑

2011年9月3日

imagemagick命令行用法(转)

摘要: convert.exe最简单的用法:convert.exe aaa.jpg aaa.png可能用到的参数(没用到的我就不解释了,是在太多):-layers flatten:在转换psd文件的时候用于合并多图层为一个图层,否则的话转换多图层的psd图就会出现多张图,每张图对应一个图层。例如:convert.exe -layers flatten aaa.psd aaa.jpg-density 72:指定图片的解析度,也就是单位面积像素数,不知道这样理解对不对,默认的单位是inch。-units PixelsPerInch:指定单位,这个配合-density使用,指定-density的单位,这个很 阅读全文

posted @ 2011-09-03 16:02 奋斗者 阅读(5625) 评论(0) 推荐(0) 编辑

2011年8月27日

ASCII码----字符码值对照表(转)

摘要: ASCII码的取值范围是0~127,可以用7个bit表示。C语言中char型变量的大小规定为一字节,如果存放ASCII码则只用到低7位,高位为0。以下是ASCII码表:图A.1.ASCII码表绝大多数计算机的一个字节是8位,取值范围是0~255,而ASCII码并没有规定编号为128~255的字符,为了能表示更多字符,各厂商制定了很多种ASCII码的扩展规范。注意,虽然通常把这些规范称为扩展ASCII码(Extended ASCII),但其实它们并不属于ASCII码标准。例如以下这种扩展ASCII码由IBM制定,在字符终端下被广泛采用,其中包含了很多表格边线字符用来画界面。图A.2.IBM的扩展 阅读全文

posted @ 2011-08-27 10:37 奋斗者 阅读(10939) 评论(0) 推荐(0) 编辑

2011年8月25日

PHP iconv()函数转字符编码的问题(转)

摘要: 载自:http://www.nowamagic.net/php/php_FunctionIconv.php在php函数库有一个函数:iconv(),iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。最近在做一个小偷程序,需要用到iconv函数把抓取来过的utf-8编码的页面转成gb2312, 发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。 让我郁闷了好一会儿,去网上一查资料才知道这是iconv函数的一个bug。iconv在转换字符"—"到gb2312时会出错。下面慢慢看一下这个函数的用法。最简单的应用,把gb2312置 阅读全文

posted @ 2011-08-25 20:04 奋斗者 阅读(11420) 评论(0) 推荐(0) 编辑

2011年8月21日

PHP中对去掉字符串首尾的空格(转)

摘要: <?php/*trim 去除一个字符串两端空格,rtrim 是去除一个字符串右部空格,ltrim 是去除一个字符串左部空格。*/?><?phpecho trim(" 空格 ")."<br>";echo rtrim(" 空格 ")."<br>";echo ltrim(" 空格 ")."<br>";?> 阅读全文

posted @ 2011-08-21 19:43 奋斗者 阅读(4719) 评论(0) 推荐(0) 编辑

php去除字符串首尾空格(包括全角)(转)

摘要: <?$str=" dfdfdf曊壷顳 道德观第三附属 ";$str = mb_ereg_replace('^( | )+', '', $str);$str = mb_ereg_replace('( | )+$', '', $str);echo mb_ereg_replace(' ', "\n ", $str);?> 阅读全文

posted @ 2011-08-21 19:25 奋斗者 阅读(1600) 评论(0) 推荐(0) 编辑

2011年8月18日

调用swftools将中文PDF转化为SWF(转)

摘要: 1、下载swftools,参考下载地址:http://www.swftools.org/download.html,并安装SWFTools;2、参照《通过XPDF抽取PDF中的中文文本》中,对XPDF做相应配置,避免转化过程中产生中文乱码;3、通过命令提示符,进入SWFTools安装目录,启动转换命令D:\Program Files\SWFTools>pdf2swf-oG:\test\read\test.swf-tG:\test\read\test.pdf-slanguagedir=G:\test\read\xpdf\chinese-simplified在languagedir后面的目录 阅读全文

posted @ 2011-08-18 20:27 奋斗者 阅读(2452) 评论(0) 推荐(0) 编辑

2011年8月17日

Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5(转)

摘要: 十进制十六进制字符数编码分类(中文)编码分类(英文)起始终止起始终止(个)01270000007F128C0控制符及基本拉丁文C0 Control and Basic Latin128255008000FF128C1控制符及拉丁文补充-1C1 Control and Latin 1 Supplement2563830100017F128拉丁文扩展-ALatin Extended-A3845910180024F208拉丁文扩展-BLatin Extended-B592687025002AF96国际音标扩展IPA Extensions68876702B002FF80空白修饰字母Spacing Mo 阅读全文

posted @ 2011-08-17 09:51 奋斗者 阅读(35014) 评论(0) 推荐(2) 编辑

上一页 1 ··· 4 5 6 7 8 9 10 11 12 下一页

导航