UTF
UTF-8 GBK UTF8 GB2312 之间的区别和关系UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。
是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。
UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。
UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。
如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。
GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。
GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。
GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。
GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换: GBK、GB2312--Unicode--UTF8 UTF8--Unicode--GBK、GB2312 对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF-8节省空间。
不过现在很多论坛的插件一般只支持GBK。
个编码的区别详细解释简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详细的就见下面转的这篇文章.谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。
所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。
整理这篇文章的动机是两个问题:问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。
同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unicode bigendian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode bigendian),EF、BB、BF(UTF-8)。
但这些标记是基于什么标准呢?问题二: 最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。
对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。
但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。
查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。
写成一篇文章,送给有过类似疑问的朋友。
本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。
0、big endian和little endianbig endian和littleendian是CPU处理多字节数的不同方式。
例如“汉”字的Unicode编码是6C49。
那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。
如果将49写在前面,就是little endian。
“endian”这个词出自《格列佛游记》。
小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,一个皇帝送了命,另一个丢了王位。
我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。
1、字符编码、内码,顺带介绍汉字编码字符必须编码后才能被计算机处理。
计算机使用的缺省编码方式就是计算机的内码。
早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。
汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。
其中有5个空位是D7FA-D7FE。
GB2312支持的汉字太少。
1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。
汉字区包括21003个字符。
从ASCII、GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。
在这些编码中,英文和中文可以统一地处理。
区分中文编码的方法是高字节的最高位不为0。
按照程序员的称呼,GB2312、GBK都属于双字节字符集 (DBCS)。
2000年的GB18030是取代GBK1.0的正式国家标准。
该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
CJK就是中日韩的意思。
Unicode为了节省码位,将中日韩三国语言中的文字统一编码。
GB13000.1就是ISO/IEC 10646-1的中文版,相当于Unicode 1.1。
GB18030的编码采用单字节、双字节和4字节方案。
其中单字节、双字节和GBK是完全兼容的。
4字节编码的码位就是收录了CJK扩展A的6582个汉字。
例如:UCS的0x...
为什么我的word里字体没有楷体—GB2312啊?
仿宋是字体名称,而GB2312是字符编码名称,它是简体中文编码的一种,简体中文自1980年代以来通常使用中华人民共和国国家标准总局公布的GB 2312,以及其后继的GBK和GB 18030中文编码。
近年来随着Unicode跨语言编码集的出现,也被广泛使用。
所以通常说的仿宋就基本上是仿宋_GB2312了。
简体中文系统环境支持国标 GB2312、GB18030 和 Unicode (UTF-8) 编码。
它们在系统中设置的locale(亦指语言别)名称为:1.国标 GB2312: zh_CN.hp15CN2.国标 GB18030: zh_CN.gb180303.Unicode (UTF-8): zh_CN.utf81.国标 GB2312 编码 (zh_CN.hp15CN)国标 GB2312 是基于 1980 年发布的《信息交换用汉字编码字符集基本集》,是中文信息处理的中国国家标准,是强制执行的中文编码。
国标码共收录 6763 个简体汉字、682 个符号,其中汉字部分:一级字 3755 个,以拼音排序,二级字 3008 个,以偏旁部首排序。
该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
该标准用双字节表示一个汉字:高字节 A1-F7(其中字符区 A1-F9,汉字区 B0-F7)低字节 A1-FE2.国标 GB18030 编码 (zh_CN.gb18030)国标 GB18030 基于 2000 年 3 月发布的《信息技术信息交换用汉字编码字符集基本集的扩充》,是最新推出的中国国家强制执行中文信息处理标准编码。
该标准涵盖了单字节、双字节、四字节的字符和汉字,共计约 28,000 多个。
注意:GB18030 编码的文件及 locale zh_CN.gb18030 现在只能用于 HP-UX 11i 的操作系统。
3.Unicode (zh_CN.utf8)HP 依据 Unicode UTF-8 添加的支持简体中文的编码。
它与 ISO-IEC 10646 一一对应,ISO-IEC 10646 是由国际标准组织 (ISO) 及国际电工联盟 (IEC) 于 1993 年所制定。
而 HP 采用的是 UTF-8 (UCS Transformation Format-8) 转换格式,作为 Unicode 在 HP-UX 上的编码架构(有别于Microsoft Windows NT? 或 Windows? 2000 所采用的 UCS2 编码架构),以用在 HP-UX 多 8 位编码环境。
现 HP-UX 支持的 zh_CN.utf8 字符集涵盖 GB2312 的全部字符。
详细资料:http://baike.baidu.com/view/79493.htm
word文档里有楷体
1.先打开一个文档,可以是txt、doc、docx,只要是word支持的皆可。
2.可以先查看下这个文档目前的编码方式,点击左上角的文件,然后选择选项。
3.向下滚动到常规这一部分,然后点击Web选项。
4.选择编码,然后就会看到目前的编码方式,我们这边是GB2312。
5.假设要将它转化为UTF-8的编码方式,那么这个时候点击另存为,跳出保存的弹框,然后点击工具选择Web选项。
6.一样选择编码,将GB2312改成UTF-8,点击确定。
7.点击保存后,文档就被成功解码啦。
怎样将word文档转换成GB2312简体中文
展开全部 可能是没有安装这个字体,也有可能是没有启动这个字体。
可提前到百度里搜索下载仿宋字体文件,再将其安装到word里。
提供下列方法,教你如何进行安装字体: 首先找到需要安装的仿宋字体文件,右击该文件,点击选择“复制”将字体复制。
2.找到并打开电脑C盘中“Windows”文件下的“Fonts”文件,如图所示。
3.将复制的字体文件粘贴到Fonts文件中即可,如图所示。
进行上述操作,电脑的word内就有仿宋_GB2312字体了。
...
转载请注明出处51数据库 » word gb2312 utf