中文信息处理实验

 

一. 实验目的

1.熟悉汉字的机内码,掌握以十六进制形式查看文件内容的方法。

2.理解GB2312--80中汉字的分布规律,掌握区位码到汉字机内码的转换规则。

3.掌握编写程序对文本文件和二进制文件的读写操作。

4.了解中文信息处理的主要研究领域与研究现状。

 

二. 实验内容

1.使用十六进制编辑器查看自己姓名的内机码。

2.编写汉字区位码查看程序,让用户输入一个汉字从而显示该汉字的区位码。

3.熟悉文件操作,编写程序将同样的数据分别写入文本文件和二进制文件,比较二者的区别。

4.了解中英机器翻译系统的研究进展与实用情况。

 

三. 实验步骤和结果

<1.>查看自己姓名的内码

1.打开windows附带的记事本。

2.在记事本中使用汉字输入法输入自己的学号和姓名。

3.以“name.txt”命名保存时编码选择“ANSI

 

 

4.关闭记事本

5.查看文件属性,记录文件大小(单位:字节)

 

 

6.用十六进制编辑器打开name.txt”文件,记录下该文件的十六进制内容。

 

十六进制:

 

7.关闭编辑器。

8.打开文本文件重新以name1.txt”名“Unicode”编码格式保存。

 

 

9.用十六进制编辑器打开name1.txt”文件,记录下该文件的内容。

 

<2.>编写汉字区位码查看程序

1.创建vs2013中的c++控制台项目

2.

 

3.在源程序编辑窗口编写代码,程序中定义一个具有三个元素的字符数组,然后接受用户一个汉字,接着将汉字的两个字节分别减去A0H,最后以十进制输出,就可以得到该汉字的区位码。,运行程序,输入如下内容,得出结果。

C++代码:

 

国:

码:

国家:

AB

 

<3.>熟悉文件操作

1.创建c++工程

2.以文本方式创建文件text.txt”和二进制方式创建文件“bin.dat”,产生101~100之间的随机正整数分别写入这两个文件,其中文本文件中每个整数写一行。

代码:

 

产生随机整数:

 

以十六进制打开text.txt文件:

 

 

以十六进制打开bin.dat文件:

 

区别:两个文件大小不一样了,猜测跟存储方式不一样,文本文件存储根据相关的编码方式对应的数字的二进制码存储,而二进制文件则直接保存数字的二进制值。

 

<4.>了解汉英翻译系统的进展

1.写出翻译系统:

有道翻译、百度翻译

2.如下英文句:He saw a duck with a telescope。写出理解的翻译:

他从望远镜里看到了一只鸭子。

3.用不同的翻译系统得出翻译结果:

有道:他用望远镜看见一只鸭子。

百度:他看见一只带望远镜的鸭子。

4.请你评价目前的翻译系统:

总的来说目前翻译系统已经取得了很大的进步,但是还不够智能,不会用合理优美的句子来替换原句,这点对于我们来说还需要加大研究力度才好。

 

posted @ 2017-09-26 20:26  JanKin-Cui  阅读(875)  评论(0编辑  收藏  举报