GB2312编码字符是什么意思
百度里有的GB2312和GBK都是汉字编码国家标准。
GBK汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号,21003个汉字及提供了1894个造字码位。
Microsoft简体版中文Windows 95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。
GB码,全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。
P- Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。
GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。
该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。
GBK工作小组于1995年10月,同年12月完成GBK规范。
该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。
GBK码对字库中偏移量的计算公式为:[(GBKH-0xB0)*0x5E+(GBKL-0xA1)]*(汉字离散后每个汉字点阵所占用的字节)GB2312GB2312-80(简称GB2312或GB80)的全称为《信息交换用汉字编码字符集—基本集》,由中国国家标准总局发布,于1981年5月实施。
目前,通行于中国大陆和新加坡。
字符必须编码后才能被计算机处理。
计算机使用的缺省编码方式就是计算机的内码。
早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。
汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。
其中有5个空位是D7FA-D7FE。
GB2312支持的汉字太少。
1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。
汉字区包括21003个字符。
2000年的GB18030是取代GBK1.0的正式国家标准。
该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。
所以手机、MP3一般只支持GB2312。
从ASCII、GB2312、GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。
在这些编码中,英文和中文可以统一地处理。
区分中文编码的方法是高字节的最高位不为0。
按照程序员的称呼,GB2312、GBK到 GB18030都属于双字节字符集 (DBCS)。
有的中文Windows的缺省内码还是GBK,可以通过GB18030升级包升级到GB18030。
不过GB18030相对GBK增加的字符,普通人是很难用到的,通常我们还是用GBK指代中文Windows内码。
字符编码的GB2312
GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。
其中最有影响的是于1980年发布的《信息交换用汉字编码字符集 基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常被通称为国标码。
GB2312编码通行于我国内地;新加坡等地也采用此编码。
几乎所有的中文系统和国际化的软件都支持GB 2312。
GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成。
其中汉字根据使用的频率分为两级。
一级汉字3755个,二级汉字3008个。
由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码。
首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照下表的规律填写到方阵中。
这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。
如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。
因为区位码同字符的位置是完全对应的,因此区位码同字符之间也是一一对应的。
这样所有的字符都可通过其区位码转换为数字编码信息。
GB2312字符的排列分布情况见表1-4。
表1-4 GB2312 字符编码分布表 分区范围 符号类型 第01区 中文标点、数学符号以及一些特殊字符 第02区 各种各样的数学序号 第03区 全角西文字符 第04区 日文平假名 第05区 日文片假名 第06区 希腊字母表 第07区 俄文字母表 第08区 中文拼音字母表 第09区 制表符号 第10-15区 无字符 第16-55区 一级汉字(以拼音字母排序) 第56-87区 二级汉字(以部首笔画排序) 第88-94区 无字符 GB2312字符在计算机中存储是以其区位码为基础的,其中汉字的区码和位码分别占一个存储单元,每个汉字占两个存储单元。
由于区码和位码的取值范围都是在1-94之间,这样的范围同西文的存储表示冲突。
例如汉字‘珀’在GB2312中的区位码为7174,其两字节表示形式为71,74;而两个西文字符'GJ'的存储码也是71,74。
这种冲突将导致在解释编码时到底表示的是一个汉字还是两个西文字符将无法判断。
为避免同西文的存储发生冲突,GB2312字符在进行存储时,通过将原来的每个字节第8bit设置为1同西文加以区别,如果第8bit为0,则表示西文字符,否则表示GB2312中的字符。
实际存储时,采用了将区位码的每个字节分别加上A0H(160)的方法转换为存储码,计算机存储规则是此编码的补码,而且是位码在前,区码在后。
例如汉字‘啊’的区位码为1601,其存储码为B0A1H,其转换过程为: 区位码 区码转换 位码转换 存储码 1001H 10H+A0H=B0H 01H+A0H=A1H B0A1H GB2312编码用两个字节(8位2进制)表示一个汉字,所以理论上最多可以表示256*256=65536个汉字。
但这种编码方式也仅仅在中国行得通,如果您的网页使用的GB2312编码,那么很多外国人在浏览你的网页时就可能无法正常显示,因为其浏览器不支持GB2312编码。
当然,中国人在浏览外国网页(比如日文)时,也会出现乱码或无法打开的情况,因为我们的浏览器没有安装日文的编码表。
“360的所有软件都使用gb2312编码”让你想到什么?
进入此页面:http://www.knowsky.com/resource/gb2312tbl.htm就进入了GB2312简体中文编码表用Ctrl+F查找需要的字,就能找出相应字符代码了。
字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。
常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。
其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数。
通常会额外使用一个扩充的比特,以便于以1个字节的方式存储。
怎么将汉字转换成GB2312编码?,最好是有软件的?
展开全部 GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号, 21003个汉字及提供了1894个造字码位。
Microsoft简体版中文Windows 95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。
GB码,全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。
P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。
GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。
该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。
GBK工作小组于1995年10月,同年12月完成GBK规范。
该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。
...
转载请注明出处51数据库 » gb2312码在线软件
见我老公了吗