java,io,从文件中读取中文出现乱码,求修改bug
readWord()的方法修改建议如下DataInputStream input ; input.readLine()这种方式读取一行 已经过时,强烈不建议使用!可以使用BufferedReader.readLine()来读取一行, 并且可以指定需要的编码格式BufferedReader input = new BufferedReader(new InputStreamReader(new FileInputStream(filename), "gbk"));writeWords()的修改建议如下for(int i = 0;i
word文档打开是乱码怎么办?
方法一打开是乱码的文档,点击“文件”里的“另存为”,在“保存类型”里选择“RTF格式”,保存之后关闭。
再打开刚才保存的文件,再次点击“另存为”,“保存类型”选择“word文档”。
方法二打开乱码的文档,在word上方找到“工具”,选择“选项”。
在弹出的对话框中,选择“编辑”,找到“使用智能段落选择范围”之后点击确定。
将内容复制,在粘贴到另一个新的word文档中,就可以恢复。
Microsoft Word是微软公司的一个文字处理器应用程序。
它最初是由Richard Brodie为了运行DOS的IBM计算机而在1983年编写的。
随后的版本可运行于Apple Macintosh (1984年), SCO UNIX,和Microsoft Windows (1989年),并成为了Microsoft Office的一部分。
一、用途1.Word XP 基本文书处理技巧及认识萤幕工具 2.快速键入中文标点符号3.中文字符放大缩小、直式通告制作,中式公函4.各款中文繁/简字体及香港常用字库运用;6.行距、段落对齐、建立清单列、定位点设定7..使用页头及页尾加入文件标题及页码8.表格及多栏制作,以方便制作报价单,会议议程及工作时间表9.加插图片、图表、文字艺术师等中文桌面印刷以制作图文并茂的文件或公司通讯10.不同资料大量合拼打印信件使用Microsoft Office Word创建和编辑信件,报告,网页或电子邮件中的文本和图形。
MS-DOS计算机开发的Word的第一代于1983年底发行,但是反响并不好,销售落后于WordPerfect等对手产品。
尽管如此,在Macintosh系统中,Word在1985年发布以后赢得了广泛的接受,尤其是对于在两年以后第二次大型发布的Word 3.01 for Macintosh (Word 3.00 由于有严重bug很快下线)。
和其他Mac软件一样,Word for Mac是一个真正的(所见即所得) 编辑器。
由于MS-DOS是一个字符界面系统,Word for DOS是为IBM PC 研发的第一个文本编辑器,在编辑的时候屏幕上直接显示的是“黑体”“斜体”等字体标识符,而不是“所见即所得”。
其他的DOS 文本编辑器,如WordStar和WordPerfect等,在屏幕显示时使用的是简单文本显示加上标识代码,或者加以颜色区别。
尽管如此,和大多数DOS软件一样,程序为了执行特定的功能,都有自己特殊的,而且往往是复杂的命令组需要使用者去记忆。
(比如在Word for DOS中,保存文件需要依次执行Escape-T-S),而大部分秘书们已经知道如何使用WordPerfect,公司就不大愿意更换成对手产品,何况提供的新优点有限。
二、格式Microsoft Word X (Mac OS X)Microsoft Word在当前使用中是占有巨大优势的文字处理器,这使得Word专用的档案格式Word 文件(.doc)成为事实上最通用的标准。
Word文件格式的详细资料并不对外公开。
Word文件格式不只一种,因为随Word软件本身的更新,文件格式也会或多或少的改版,新版的格式不一定能被旧版的程序读取(大致上是因为旧版并未内建支援新版格式的能力)。
微软已经详细公布Word 97的DOC格式,但是较新的版本资料目前仍未公开,只有公司内部、政府与研究机构能够获知。
业界传闻说某些Word文件格式的特性甚至连微软自己都不清楚。
其他与Word竞争的办公室作业软件,都必须支援事实上最通用的Word专用的档案格式。
因为Word文件格式的详细资料并不对外公开,通常这种兼容性是藉由逆向工程来达成。
许多文字处理器都有汇出、汇入Word档案专用的转换工具,譬如AbiWord或OpenOffice。
(参照文本编辑器当中关于其他竞争软件的说明。
)Apache Jakarta POI是一个开放原始码的Java数据库,其主要目标是存取Word的二进制文件格式。
不久前,微软自己也提供了检视器,能够不用Word程序就检视Word文件。
例:Word Viewer 2003。
Word 97到Word 2003之前的Word文件格式都是二进制文件格式。
不久以前,微软声明他们接下来将以XML为基础的档案格式作为他们办公室套装软件的格式。
Word 2003提供WordprocessingML的选项。
这是一种公开的XML档案格式,由丹麦政府等机构背书支持。
Word 2003的专业版能够直接处理非微软的档案规格。
跟其它Microsoft Office程序一样,Word可使用固定宏语言(宏语言)来高度定制。
(最初是WordBasic,但自从Word 97以来就变成Visual Basic)然而,这种性能也可以在文档中嵌入就像梅利莎蠕虫的电脑病毒。
这就是电脑用户需要安装防火墙和反病毒软件的另一个原因。
Microsoft's security advice人们所知道的第一个感染Microsoft Word文档的病毒叫做概念病毒,一个相对危害很小的病毒,它的出现是为了证明宏病毒出现的可能性。
java读取word文件的问题
请贴出代码,谢谢。
请关闭输入流,释放资源,谢谢。
调用close()方法。
其他貌似没有发现什么问题。
public static String run(String filename){WordExtractor extractor=null;String text=null;try{FileInputStream in = new FileInputStream (filename);extractor = new WordExtractor();text=extractor.extractText(in);}catch(Exception ex){//logreturn null;}return text;}public static void main(String[] args){try{FileOutputStream out=new FileOutputStream("result.txt");out.write(WordProcess.run(args[0]).getBytes());out.flush();out.close();}catch(Exception ex){System.out.println(ex.toString());}}看看这个。
模范这样写,试试看。
这个代码我试过,没问题,如果这样写还是有问题,那就不是代码的问题了。
java 文件IO 读取乱码问题
一般的电子书都是TXT格式的,但是要根据系统预设里的编码方式来确定!方法是先下载TXT格式的电子书,放在桌面上第一.左键点击txt文档的上方的"文件"菜单,选中"另存为"选项,就会弹出"另存为"选项框; 第二.选项框的最下方有一个"编码"选择栏,点击该栏,选中"utf8"; 第三.左键点击"另存为"按钮,就会将txt的文档另存为编utf8码; 第四.将该文件放置在手机的Ebook目录下即可
java读取带格式word内容
// 表格类型ListtableList = doc.getTables();for (int i = 0; i System.out.println(i);XWPFTable table = tableList.get(i);System.out.println(table.getText());}获取表格中内容可以用这个,但是你说的格式是什么意思,每个字的字体之类的吗?
转载请注明出处51数据库 » java word读取是乱码