首先,安装CygWin(在官网上下的最新版),一定要选上openssh和openssl的包(缺省是不安装的)。 CygWin在各个计算机上的安装目录可以不同。要把CygWin安装目录下的bin目录、usr/bin目录、usr/sbin目录放到系统环境变量Path中。因为,hadoop会执行一些Linux/UNIX形式的命令如bash、whoami等,而这些命令在CygWin中是以Windows系统中的可执行文件形式存放在前面说的目录中。
CygWin装好之后,以管理员的身份运行Cygwin Terminal,执行ssh-host-config配置SSHD服务。CygWin会在Windows系统中新建一个管理员帐号cyg_server(可以按自己换别的),这个帐号就用来跑hadoop的程序了。过程中有好多地方问yes还是no,我试过全部选yes也试过个别选no(按照网上的资料),结果没发现有什么差别。ssh-host-config执行成功后,SSHD会作为一个系统服务在后台运行,每次系统启动都自动开启。这时,要注意检查或配置Windows的防火墙配置,要放开到SSHD服务的入站连接,我的做法是放开到Cygwin安装目录/usr/sbin/sshd的入站连接。
Cygwin Terminal下执行mkpasswd -l > /etc/passwd和mkgroup -l > /etc/group,主要用途是将Windows的帐号和组别同步到CygWin下。
Windows系统中切换到cyg_server用户(这个帐号的描述缺省是Privileged server),运行Cygwin Terminal,执行ssh-keygen,一直敲回车就行。用ls -a可以看到有一个.ssh的目录,把里面的id_rsa,pub导入到authorized_keys,然后把NameNode上的这个authorized_keys文件,拷贝到所有DataNode和TaskTracker的相同位置下,即 cyg_server用户主目录下的.ssh目录。这样cyg_server用户就可以不需要密码就可以远程登录各个计算机和执行命令。
Hadoop是用java开发的,因此,系统中要有java的运行环境,可以从Oracle的官网下最新的JDK安装,注意是JDK,不是JRE(因为需要用到bin目录下的server目录)。安装的位置必须全部计算机都一样(因为碰到过在DataNode上找不到java程序的情况),那也就是在C:\下面了,给安装目录起一个简短的名称(不要带空格)。在系统环境变量Path中,将JDK安装目录下的bin目录所在路径添加进去。跟SSHD一样,要修改Windows防火墙的入站规则,放开到JDK的java程序网络连接。
到这里,Hadoop主要的运行条件基本具备了,可以安装Hadoop了。过程很简单,从hadoop.apache.org下载一个hadoop的tar.gz包(比如1.1.2版本),解压到一个目录下就可以了。这里要注意的是,最好全部操作都在Windows的cyg_server帐号下执行,而且,hadoop解压后存放的目录要所有计算机都一样,例如都放在C:\hadoop-1.1.2目录下。
Hadoop是用java开发的,虽然java号称支持跨平台运行。但是,基于Linux的Hadoop移到Windows平台上时,依然出现严重水土不服,即使是在Cygwin的环境下也一样。同样一段java代码,在Linux下的表现和在Windows下的表现会不一样,导致Windows下运行的Hadoop经常出现异常而终止运行。
实验中大部分的时间都是用来探究引起水土不服的原因,把它消除掉。 下面介绍一下对这些问题采取的一些解决办法。
众所周知,文件路径在Linux下和在Windows下的解析是不一样的。在Cygwin中运行Windows版本的java时,两种不同形式的文件路径一起出现会导致程序异常。Cygwin下对C:\hadoop-1.1.2的解析是/cygdrive/c/hadoop-1.1.2,而Windows版本的java对'/cygdrive/c/hadoop-1.1.2'的解析又变成C:\cygdrive\c\hadoop-1.1.2,由于这是一个不存在的文件路径,所以Hadoop经常抛出异常说文件找不到,或者自己直接把这个路径创建了(例如,DataNode存放HDFS文件块时寻找dfs.data.dir时)。要解决这个问题,可以利用Windows7的文件链接的特性(类似于linux的链接ln -s),在C:\下创建cygdrive目录,在这个目录里执行MKLINK /D c C:\创建一个到目的目录的目录链接。这样当java访问C:\cygdrive\c\hadoop-1.1.2时就会如我们所愿访问到C:\hadoop-1.1.2这个目录。
前言 windows下运行hadoop,通常有两种方式:一种是用vm方式安装一个linux操作系统,这样基本可以实现全linux环境的hadoop运行;另一种是通过cygwin模拟linux环境。后者的好处是使用比较方便,安装过程也简单,本篇文章是介绍第二种方式cygwin模...
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....