中文信息处理实验
一. 实验目的
1.熟悉汉字的机内码,掌握以十六进制形式查看文件内容的方法。
2.理解GB2312--80中汉字的分布规律,掌握区位码到汉字机内码的转换规则。
3.掌握编写程序对文本文件和二进制文件的读写操作。
4.了解中文信息处理的主要研究领域与研究现状。
二. 实验内容
1.使用十六进制编辑器查看自己姓名的内机码。
2.编写汉字区位码查看程序,让用户输入一个汉字从而显示该汉字的区位码。
3.熟悉文件操作,编写程序将同样的数据分别写入文本文件和二进制文件,比较二者的区别。
4.了解中英机器翻译系统的研究进展与实用情况。
三. 实验步骤和结果
<1.>查看自己姓名的内码
1.打开windows附带的记事本。
2.在记事本中使用汉字输入法输入自己的学号和姓名。
3.以“name.txt”命名保存时编码选择“ANSI”


4.关闭记事本
5.查看文件属性,记录文件大小(单位:字节)

6.用十六进制编辑器打开“name.txt”文件,记录下该文件的十六进制内容。

十六进制:

7.关闭编辑器。
8.打开文本文件重新以“name1.txt”名“Unicode”编码格式保存。

9.用十六进制编辑器打开“name1.txt”文件,记录下该文件的内容。

<2.>编写汉字区位码查看程序
1.创建vs2013中的c++控制台项目
2.
3.在源程序编辑窗口编写代码,程序中定义一个具有三个元素的字符数组,然后接受用户一个汉字,接着将汉字的两个字节分别减去A0H,最后以十进制输出,就可以得到该汉字的区位码。,运行程序,输入如下内容,得出结果。
C++代码:

国:
码:
国家:
AB:
<3.>熟悉文件操作
1.创建c++工程
2.以文本方式创建文件“text.txt”和二进制方式创建文件“bin.dat”,产生10个1~100之间的随机正整数分别写入这两个文件,其中文本文件中每个整数写一行。
代码:

产生随机整数:

以十六进制打开text.txt文件:

以十六进制打开bin.dat文件:

区别:两个文件大小不一样了,猜测跟存储方式不一样,文本文件存储根据相关的编码方式对应的数字的二进制码存储,而二进制文件则直接保存数字的二进制值。
<4.>了解汉英翻译系统的进展
1.写出翻译系统:
有道翻译、百度翻译
2.如下英文句:He saw a duck with a telescope。写出理解的翻译:
他从望远镜里看到了一只鸭子。
3.用不同的翻译系统得出翻译结果:
有道:他用望远镜看见一只鸭子。
百度:他看见一只带望远镜的鸭子。
4.请你评价目前的翻译系统:
总的来说目前翻译系统已经取得了很大的进步,但是还不够智能,不会用合理优美的句子来替换原句,这点对于我们来说还需要加大研究力度才好。
作者:JanKin-Cui
出处:http://www.cnblogs.com/JanKin-Cui/
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文链接,否则保留追究法律责任的权利。

浙公网安备 33010602011771号