如何将word改为 utf
1.先打开一个文档,可以是txt、doc、docx,只要是word支持的皆可。
2.可以先查看下这个文档目前的编码方式,点击左上角的文件,然后选择选项。
3.向下滚动到常规这一部分,然后点击Web选项。
4.选择编码,然后就会看到目前的编码方式,我们这边是GB2312。
5.假设要将它转化为UTF-8的编码方式,那么这个时候点击另存为,跳出保存的弹框,然后点击工具选择Web选项。
6.一样选择编码,将GB2312改成UTF-8,点击确定。
7.点击保存后,文档就被成功解码啦。
什么是unicode编码?
Unicode码扩展自ASCII字元集。
在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。
这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。
Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。
考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。
Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。
从这方面来看,我们已经上路了。
Windows NT从底层支援Unicode。
目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO 646标准。
适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。
Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。
编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符
OFFICE WORD的doc文件是采用哪种编码格式的?
现在的Office Word文档,都是docx格式的。
一、编码原理。
用两个文本文档,一个用来放文本信息,另一个用来配置个里面的格式,比如字体,大小等。
这样用两个文本文件就能实现doc格式类似的功能,所以很节省体积。
二、其优点。
当我们创建一个空的文档文件的时候,我们发现,doc格式是25KB左右,而docx是0字节,所以呢我们就知道了doc格式的配置文件至少要有23KB,对于只有一页的文件你才有多少文字啊,docx就能节省很多的空间了。
节省体积有什么用呢?对于我们一般的电脑而言却是没有什么大用处,但是对于服务器、图书馆来说可有用途大了,docx至少能节省一半的空间(图片少的时候更明显)这样图书馆的电子书就能多一倍,对于这类电脑而言是何等的恐怖……三、docx与doc的区别还有一个,就是响应速度。
比如很多特效之类的东西只要修改配置文件就可以了,而不用像doc那样反复修改那个大文件。
现在docx已经开始替代doc格式了,但是还是很多地方doc格式是统治地位的,如果真是要紧急打开docx格式可以用win7记事本。
word2003保存文档时候编码类型里没有编码文字格式,怎么弄呢?
如果只是 EditPlus 出错,这个是字体的问题,你图片中的问题不叫乱码,乱码是把汉字显示成了问号:问号是字符集的问题,方框是字体不支持这个字符的问题,你的机器当前的默认字体不支持汉字,你需要改一下EditPlus 的字体设置,选择一个支持汉字的字体(比如宋体,微软雅黑,Arial MS Unicode) 。
如果在 Eclipse 中出错:不是说你非得用 UTF-8,而是说在你编辑和查看它的所有场合使用的字符集编码应该相同,比如当你在 eclipse 中设置的字符集参数(有3个地方有参数,一是 Eclipse 全局参数中的 General >Workspace 中,二是项目属性中,三是打开文件之后从 Edit/Source 菜单中,如果3个地方都有设置,那么优先级依然增高最后一个优先级最高)与你用 EditPlus 打开时应该相同,如果你的 Eclipse workspace 字符集或项目上单独设置的字符集本来就是 Windows 中文版默认的 GBK 的话,那你在其它地方用 UTF-8 本身就是多此一举。
Eclipse 中设置文件的字符集参数将来要在编译过程中传递给 javac 程序让它能正确地处理代码中的常量(注释就无所谓了),否则你在代码中的常量 String a = "汉字“;用错误的字符集编译代码后可能最终编译器认为它是 a= "张三“,因为一个汉字在不同字符集中的编码不一样,有一个编码跑到错误的字符集中去找汉字得到的就是错误的或者问号(乱码)。
另外要说的是:JSP / HTML 中的 Content - Type 是给接收它的浏览器用的,而 中的字符集是给 JSP 编译器用的,其它 和普通 Java 文件编辑是一样的,字符集应该相同,如果你的代码中的字符串常量是Java代码的一部分(比如 ),那么 的字符集应该与当前文件的字符集相同,如果不包括汉字之类的,那随便用什么字符集都不会出错的。
怎样把EXCEL转换为UTF
用Word 开启会出现一个视窗选UTF-8 编码用Word开启会出现一个视窗选UTF-8编码另存新档sample1.txt 此时会出现另一个视窗选GB2312 编码另存新档sample1.txt此时会出现另一个视窗选GB2312编码利用Excel 汇入外部资料sample1.txt 会出现视窗选原始档案格式936: Chinese Simplified 按下一步利用Excel汇入外部资料sample1.txt会出现视窗选原始档案格式936: Chinese Simplified按下一步分隔符号选逗点后按完成分隔符号选逗点后按完成最后存成.xls 格式最后存成.xls格式
保存的WORD文件成乱码了,怎么办a ?
有时候打开Word文档会看见文档变成了一堆乱码。
可以通过两个方法来挽救文件。
一、替换格式法就是把损坏的Word文档存为另一种格式。
1、打开被损坏的文档单击文件/另存为菜单,在 保存类型列表中,选择RTF格式,然后单击保存按钮,并关闭word。
2、打开刚才保存的RTF格式文件,再次使用 另存为将文件重新保存为Word文档,现在打开这个word文件就可以发现文件已经被恢复过来了。
如果在转换成rtf格式后文件仍然不能被恢复,可以将文件再次转换为纯文本格式(*.txt),再转换回Word格式。
当然在转换为txt文件的时候其图片等信息会丢失掉。
二、删除格式信息法Word文档的最后一个段落符号记录着全篇文档的格式信息,有时删除这些格式信息就可以恢复变成乱码的文件。
1、在打开损坏的文档后,单击工具/选项菜单,选择编辑标签,取消对使用智能段落选择范围复选框的勾选,然后单击 按钮。
这样就可以修复文件了。
2、选定最后一个段落符之外的全部内容,然后将这些内容粘贴复制到新的word文件中即可。
txt文件怎么将编码另存为utf8码
UTF-8 GBK UTF8 GB2312 之间的区别和关系UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。
是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。
UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。
UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。
如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。
GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。
GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。
GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。
GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换: GBK、GB2312--Unicode--UTF8 UTF8--Unicode--GBK、GB2312 对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF-8节省空间。
不过现在很多论坛的插件一般只支持GBK。
个编码的区别详细解释简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形式.utf-8码完全只针对uncode来组织的,如果GBK要转UTF-8必须先转uncode码,再转utf-8就OK了.详细的就见下面转的这篇文章.谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词这是一篇程序员写给程序员的趣味读物。
所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。
整理这篇文章的动机是两个问题:问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。
同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unicode bigendian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode bigendian),EF、BB、BF(UTF-8)。
但这些标记是基于什么标准呢?问题二: 最近在网上看到一个ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。
对于Unicode(UCS2)、GBK、UTF-8这些编码方式,我原来就了解。
但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。
查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。
写成一篇文章,送给有过类似疑问的朋友。
本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。
0、big endian和little endianbig endian和littleendian是CPU处理多字节数的不同方式。
例如“汉”字的Unicode编码是6C49。
那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。
如果将49写在前面,就是little endian。
“endian”这个词出自《格列佛游记》。
小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,一个皇帝送了命,另一个丢了王位。
我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。
1、字符编码、内码,顺带介绍汉字编码字符必须编码后才能被计算机处理。
计算机使用的缺省编码方式就是计算机的内码。
早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。
GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。
汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。
其中有5个空位是D7FA-D7FE。
GB2312支持的汉字太少。
1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。
汉字区包括21003个字符。
从ASCII、GB2312到GBK,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。
在这些编码中,英文和中文可以统一地处理。
区分中文编码的方法是高字节的最高位不为0。
按照程序员的称呼,GB2312、GBK都属于双字节字符集 (DBCS)。
2000年的GB18030是取代GBK1.0的正式国家标准。
该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。
从汉字字汇上说,GB18030在GB13000.1的20902个汉字的基础上增加了CJK扩展A的6582个汉字(Unicode码0x3400-0x4db5),一共收录了27484个汉字。
CJK就是中日韩的意思。
Unicode为了节省码位,将中日韩三国语言中的文字统一编码。
GB13000.1就是ISO/IEC 10646-1的中文版,相当于Unicode 1.1。
GB18030的编码采用单字节、双字节和4字节方案。
其中单字节、双字节和GBK是完全兼容的。
4字节编码的码位就是收录了CJK扩展A的6582个汉字。
例如:UCS的0x...
GB2312有两种编码方式吗?
utf-8可以算是一种编码方式(针对unicode的编码方式) unicode及gb2312是字符集。
unicode与gb2312之间没有什么映射规律,只能靠映射表。
utf-8的存在是由unicode的编码特点而决定的。
在unicode中,某字节的值可能会为0或一些其它控制字符的值, 而且,unicode的值在存贮时与操作系统相关 (如一个字在unicode中保存为两字节,那么当存贮时, 即可以是0xAA,0xBB,也可以是0xBB,0xAA, 所以在用unicode字符集保存的文件最初都有这样的两字节: 0xFF,0xFE或0xFE,0xFF来表示当前文件是以哪一种形式存贮的 而用utf-8编码后,就不会存在这种差别, 它会将unicode编码成与字节序无关的内容。
)记得采纳啊
转载请注明出处51数据库 » word utf编码