随笔分类 -  文本处理

unicode, character, character set, encoding, utf-8
摘要:转:http://www.utf.com.cn/article/s1383 这些相关的东西并不复杂, 但非常容易混淆不清, 尤其是最近看了一些这方面的文章, 即使是被认为是权威的出处, 也经常出现冲突矛盾, 和用词不准确, 解释的概念不清楚的情况:1. 字符集和编码方案混为一谈. http://www.utf.com.cn/article/s320 中说: UTF_8字符集 UTF-8是UNI... 阅读全文
posted @ 2007-04-20 09:24 Dragon-China 阅读(914) 评论(0) 推荐(0) 编辑
字符串中有汉字的处理方法集合
摘要:1、str="aaa是"; re=/[\u4e00-\u9fa5]/g if(re.test(str)) { alert("有汉字") }2、简单汉字判断 private static int isCharacter(String word){ byte[] str_... 阅读全文
posted @ 2007-04-19 17:02 Dragon-China 阅读(2679) 评论(2) 推荐(0) 编辑
几种字符串反转方法效率比较
摘要:static string Reverse1(string original) ...{ char[] arr = original.ToCharArray(); Array.Reverse(arr); return new string(arr); } ... 阅读全文
posted @ 2007-04-19 16:42 Dragon-China 阅读(1478) 评论(0) 推荐(0) 编辑
Unicode编码问题,编程方面的技巧集合
摘要:一、匹配Unicode字符的正则表达式 原文:http://blog.sunmast.com/Sunmast/archive/2004/07/30/799.aspx 这里是几个主要非英文语系字符范围(google上找到的): 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年... 阅读全文
posted @ 2007-04-19 15:51 Dragon-China 阅读(1773) 评论(0) 推荐(0) 编辑
Unicode 汉字内码表
摘要:啊:21834 阿:38463 埃:22467 挨:25384 哎:21710 唉:21769 哀:21696 皑:30353 癌:30284 蔼:34108 矮:30702 艾:33406 碍:30861 爱:29233 隘:38552 鞍:38797 氨:27688 安:23433 俺:20474 按:25353 暗:26263 岸:23736 胺:33018 案:26696 肮:32942 ... 阅读全文
posted @ 2007-04-19 15:00 Dragon-China 阅读(2293) 评论(0) 推荐(0) 编辑
编码,charset,乱码,unicode,utf-8与net简单释义
摘要:很久没有写blog了﹐今天下午工作刚好告一段落﹐有点时间﹐就把上周花了很多时间总结出来的一些计算机字符相关的心得写出来﹐希望能够帮助当初和我一样迷茫的人能够容易理解﹐也希望能够引出玉来(这么多废话﹐还不快开始...) 由于公司使用的是繁体操作系统﹐而我有时习惯在自己家里的简体计算机上写一些程序﹐但是当我用U盘把代码在两者之间copy时﹐经常发现文件中文的地方成了乱码﹐所以就花了些时间到网上查了一下... 阅读全文
posted @ 2007-04-19 14:55 Dragon-China 阅读(1256) 评论(2) 推荐(0) 编辑
Unicode编码表
摘要:图例: Unicode 3.1 ... 阅读全文
posted @ 2007-04-19 14:42 Dragon-China 阅读(10145) 评论(5) 推荐(0) 编辑
Unicode简介
摘要:Unicode是一种字符编码规范 。先从ASCII说起。ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits) 因此,ASCII编码可以表示的最大字符数是256,其实英文字符并没有那么多,一般只用前128个(最高位为0),其中包括了控制字符、数字、大小写字母和其他一些符号 。而最高位为1的另128个字符被成为“扩展ASCII”,一般用来存放英文的制表符、部分音标字... 阅读全文
posted @ 2007-04-19 14:32 Dragon-China 阅读(1661) 评论(0) 推荐(0) 编辑
个人信息管理器
摘要:转:http://www.cnblogs.com/maxianghui/archive/2006/10/10/524873.html 经过一个多月的努力,终于搞定了这个小软件,请大家给点意见我。采用VC# + Access2003 + XML开发,扩展了TreeView控件,扩展了RichTextBox控件,扩展了ListBox控件,所以功能更强大。系统左边是一棵树,右边是工作区,有点像Wind... 阅读全文
posted @ 2007-03-21 15:00 Dragon-China 阅读(576) 评论(3) 推荐(0) 编辑
打造资源管理器
摘要:转:http://www.cnblogs.com/maxianghui/archive/2006/07/29/462877.html 实现文件的删除、重命名、复制、剪切、粘贴与运行,文件夹的新建、删除、重命名、复制、移动、向上和刷新功能,并能统计选中的文件、文件夹与驱动器的各种信息。界面如下:提供驱动器操作的类: Code highlighting produced by Actipro Code... 阅读全文
posted @ 2007-03-21 14:55 Dragon-China 阅读(496) 评论(1) 推荐(0) 编辑
C#里面全角和半角的自由转换
摘要:1、半角转全角 1c = "hello World".ToCharArray(); 2 for(int i = 0; i 3 /// 转全角的函数(SBC case) 4 /// 5 /// 任意字符串 6 /// 全角字符串 7 /// 8 ///全角空格为12288,半角空格为32... 阅读全文
posted @ 2007-03-16 14:45 Dragon-China 阅读(732) 评论(0) 推荐(0) 编辑
C#处理文本文件《以下的打印和打印预览比较的有价值》
摘要:文本文件是一种常用的文件格式,所以如何处理文本文件也就成为编程的一个重点。本文就来探讨一下用C#是如何来处理文本文件。其内容重点就是如何读取文本文件内容、如何改变文本文件的内容,以及如何用C#来实现对读取后的文本文件的打印预览和打印。 一. 本文程序设计和运行的软件环境: (1).微软公司视窗2000服务器版 (2)..Net FrameWork SDK Beta 2 二. C#处理文本... 阅读全文
posted @ 2007-02-15 11:12 Dragon-China 阅读(698) 评论(0) 推荐(0) 编辑
修改大型 XML 文件的有效方法
摘要:随着 XML 成为大型信息源的常用表示格式,开发人员编辑大型 XML 文件时开始遇到问题。对于处理大型日志文件以及经常需要为这些文件追加信息的应用程序,尤其如此。编辑 XML 文件最直接的方法是,将其加载到 XmlDocument 中,在内存中修改文档,然后将其保存回磁盘。但是,这样做意味着要将整个 XML 文档加载到内存中,由于文档太大或应用程序需要的内存不够,这种方法可能会行不通。 这篇论文说... 阅读全文
posted @ 2007-01-10 17:04 Dragon-China 阅读(527) 评论(0) 推荐(0) 编辑
Base64编码
摘要:什么是Base64? 算法详解 算法实现 什么是Base64? 按照RFC2045的定义,Base64被定义为:Base64内容传送编码被设计用来把任意序列的8位字节描述为一种不易被人直接识别的形式。(The Base64 Content-Transfer-Encoding is designed to rep... 阅读全文
posted @ 2006-10-09 15:57 Dragon-China 阅读(461) 评论(0) 推荐(0) 编辑