word gb2312 utf

UTF

UTF-8 GBK UTF8 GB2312 之间的区别和关系UTF-8:Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。

是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。

UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。

UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。

如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。

GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。

GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBD大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换： GBK、GB2312--Unicode--UTF8 UTF8--Unicode--GBK、GB2312 对于一个网站、论坛来说，如果英文字符较多，则建议使用UTF-8节省空间。

不过现在很多论坛的插件一般只支持GBK。

个编码的区别详细解释简单来说，unicode,gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的.如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a040,gbk为b030，而uft-8码，就是把那个值表现的形式.utf-8码完全只针对uncode来组织的，如果GBK要转UTF-8必须先转uncode码，再转utf-8就OK了.详细的就见下面转的这篇文章.谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。

所谓趣味是指可以比较轻松地了解一些原来不清楚的概念，增进知识，类似于打RPG游戏的升级。

整理这篇文章的动机是两个问题：问题一：使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。

同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unicode、Unicode bigendian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE(Unicode),FE、FF(Unicode bigendian),EF、BB、BF(UTF-8)。

但这些标记是基于什么标准呢？问题二：最近在网上看到一个ConvertUTF.c，实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。

对于Unicode(UCS2)、GBK、UTF-8这些编码方式，我原来就了解。

但这个程序让我有些糊涂，想不起来UTF-16和UCS2有什么关系。

查了查相关资料，总算将这些问题弄清楚了，顺带也了解了一些Unicode的细节。

写成一篇文章，送给有过类似疑问的朋友。

本文在写作时尽量做到通俗易懂，但要求读者知道什么是字节，什么是十六进制。

0、big endian和little endianbig endian和littleendian是CPU处理多字节数的不同方式。

例如“汉”字的Unicode编码是6C49。

那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。

如果将49写在前面，就是little endian。

“endian”这个词出自《格列佛游记》。

小人国的内战就源于吃鸡蛋时是究竟从大头（Big-Endian）敲开还是从小头（Little-Endian）敲开，由此曾发生过六次叛乱，一个皇帝送了命，另一个丢了王位。

我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

1、字符编码、内码，顺带介绍汉字编码字符必须编码后才能被计算机处理。

计算机使用的缺省编码方式就是计算机的内码。

早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。

汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。

其中有5个空位是D7FA-D7FE。

GB2312支持的汉字太少。

1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。

汉字区包括21003个字符。

从ASCII、GB2312到GBK，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。

在这些编码中，英文和中文可以统一地处理。

区分中文编码的方法是高字节的最高位不为0。

按照程序员的称呼，GB2312、GBK都属于双字节字符集（DBCS）。

2000年的GB18030是取代GBK1.0的正式国家标准。

该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

从汉字字汇上说，GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字（Unicode码0x3400-0x4db5），一共收录了27484个汉字。

CJK就是中日韩的意思。

Unicode为了节省码位，将中日韩三国语言中的文字统一编码。

GB13000.1就是ISO/IEC 10646-1的中文版，相当于Unicode 1.1。

GB18030的编码采用单字节、双字节和4字节方案。

其中单字节、双字节和GBK是完全兼容的。

4字节编码的码位就是收录了CJK扩展A的6582个汉字。

例如：UCS的0x...

为什么我的word里字体没有楷体—GB2312啊？

仿宋是字体名称，而GB2312是字符编码名称，它是简体中文编码的一种，简体中文自1980年代以来通常使用中华人民共和国国家标准总局公布的GB 2312，以及其后继的GBK和GB 18030中文编码。

近年来随着Unicode跨语言编码集的出现，也被广泛使用。

所以通常说的仿宋就基本上是仿宋_GB2312了。

简体中文系统环境支持国标 GB2312、GB18030 和 Unicode (UTF-8) 编码。

它们在系统中设置的locale（亦指语言别）名称为：1.国标 GB2312: zh_CN.hp15CN2.国标 GB18030: zh_CN.gb180303.Unicode (UTF-8): zh_CN.utf81.国标 GB2312 编码（zh_CN.hp15CN）国标 GB2312 是基于 1980 年发布的《信息交换用汉字编码字符集基本集》，是中文信息处理的中国国家标准，是强制执行的中文编码。

国标码共收录 6763 个简体汉字、682 个符号，其中汉字部分：一级字 3755 个，以拼音排序，二级字 3008 个，以偏旁部首排序。

该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

该标准用双字节表示一个汉字：高字节 A1-F7（其中字符区 A1-F9，汉字区 B0-F7）低字节 A1-FE2.国标 GB18030 编码（zh_CN.gb18030）国标 GB18030 基于 2000 年 3 月发布的《信息技术信息交换用汉字编码字符集基本集的扩充》，是最新推出的中国国家强制执行中文信息处理标准编码。

该标准涵盖了单字节、双字节、四字节的字符和汉字，共计约 28,000 多个。

注意：GB18030 编码的文件及 locale zh_CN.gb18030 现在只能用于 HP-UX 11i 的操作系统。

3.Unicode (zh_CN.utf8)HP 依据 Unicode UTF-8 添加的支持简体中文的编码。

它与 ISO-IEC 10646 一一对应，ISO-IEC 10646 是由国际标准组织（ISO）及国际电工联盟（IEC）于 1993 年所制定。

而 HP 采用的是 UTF-8 (UCS Transformation Format-8) 转换格式，作为 Unicode 在 HP-UX 上的编码架构（有别于Microsoft Windows NT? 或 Windows? 2000 所采用的 UCS2 编码架构），以用在 HP-UX 多 8 位编码环境。

现 HP-UX 支持的 zh_CN.utf8 字符集涵盖 GB2312 的全部字符。

详细资料：http://baike.baidu.com/view/79493.htm

word文档里有楷体

1.先打开一个文档，可以是txt、doc、docx，只要是word支持的皆可。

2.可以先查看下这个文档目前的编码方式，点击左上角的文件，然后选择选项。

3.向下滚动到常规这一部分，然后点击Web选项。

4.选择编码，然后就会看到目前的编码方式，我们这边是GB2312。

5.假设要将它转化为UTF-8的编码方式，那么这个时候点击另存为，跳出保存的弹框，然后点击工具选择Web选项。

6.一样选择编码，将GB2312改成UTF-8，点击确定。

7.点击保存后，文档就被成功解码啦。

怎样将word文档转换成GB2312简体中文

展开全部可能是没有安装这个字体，也有可能是没有启动这个字体。

可提前到百度里搜索下载仿宋字体文件，再将其安装到word里。

提供下列方法，教你如何进行安装字体：首先找到需要安装的仿宋字体文件，右击该文件，点击选择“复制”将字体复制。

2.找到并打开电脑C盘中“Windows”文件下的“Fonts”文件，如图所示。

3.将复制的字体文件粘贴到Fonts文件中即可，如图所示。

进行上述操作，电脑的word内就有仿宋_GB2312字体了。

...

转载请注明出处51数据库 » word gb2312 utf