logo
Published on 网络e自由e客----易易工作室 (http://drupal.ee-studio.com)

汉字编码的测试

By eureka
已创建 2004/05/17 - 00:41

  以下是对windows(本例在windows XP下)环境下关于汉字编码的测试,原理可以参见汉字编码问题 [1]:

  打开windows附带的计事本,输入“中文zZ”四字符,保存为“中文.txt”后再打开,不会发现任何问题。用UltraEdit(本例为10.0版本,以下同)查看其十六进字编码为:D6 D0 CE C4 7A 5A (前四字节为两中文编码,后两个字节为英文编码) 编码状态栏显示:DOS

  把用记事本打开的“中文.txt”的文件选择“另存为”,下拉框里由“ansi”改为选择“unicode”,存为“中文-unicode.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE 2D 4E 87 65 7A 00 5A 00 (前两个字节为文件编码标志,此后四字节为中文unicode编码,最后四个字节为两英文字符。),编码状态显示:U-DOS

  把用记事本打开的“中文.txt“文件选择“另存为”,下拉框里由“ansi”改为选择“unicode-big-endian”,存为“中文-unicode-big-endian.txt”,用记事本打开能正常显示,用UltraEdit打开出现乱码,查看其十六进制编码为:FE FF 4E 2D 65 87 00 7A 00 5A (怎么跟unicode一比是倒了个个儿)。编码状态显示为: DOS (没把它当Unicode ,怪不得显示不正常)。

  把用记事本打开的“中文.txt”文件选择“另存为”,下拉框里由“ansi”改为选择“UTF-8”,存为“中文-utf-8.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 2D 4E 86 65 7A 00 5A 00 (前四个字节为文件前导字符,中间四个为两汉字,最后四个为两字母。),编码状态显示为:U8-DOS

  新建一个.txt文件,用windows附带的计事本打开,输入“联通zZ”二字,保存为“联通.txt”后再打开,出现乱码(用另存为可以看到记事本误认为编码为UTF-8)。用UltraEdit查看其十六进制编码为:FF FE 6A 00 68 03 7A 00 5A 00(编码状态为U8-DOS)。

  打开记事本,输入“联通zZ”,选择另存为“联通utf-8.txt”,按默认“UTF-8”保存,用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 54 80 1A 90 7A 00 5A 00 (前四个字节为文件前导,中间四字节为两汉字,最后四字节为两英文件字符)。编码状态显示为:U8-DOS

  打开记事本,输入“联通zZ”,选择另存为“联通unicode.txt”,按“unicode”保存,再用UltraEdit打开,查看其十六进制编为:FF FE 54 80 1A 90 7A 00 5A 00 (前面两字节为前导符,其后四字节为两汉字,后面四字节为两英文)。编码状态为:U-DOS

  因此,这里有个怪现象(BUG),在Windows下不管是用记事本,或是UltraEdit,或是,Dreamweaver 如果只是以“联通”打头的文档,保存后再打开就不能正常显示了,也就是说“联通”(当然还有其它的汉字如“连通”)两字打头的文档都不能正常的保存为ANSI格式。

  


Source URL:
http://drupal.ee-studio.com/node/268