如何安装hadoop
在Linux上安装Hadoop之前,需要先安装两个程序: 1. JDK 1.6或更高版本; 2. SSH(安全外壳协议),推荐安装OpenSSH。
下面简述一下安装这两个程序的原因: 1. Hadoop是用Java开发的,Hadoop的编译及MapReduce的运行都需要使用JDK。
2. Hadoop需要通过SSH来启动salve列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。
对于伪分布式,Hadoop会采用与集群相同的处理方式,即依次序启动文件conf/slaves中记载的主机上的进程,只不过伪分布式中salve为localhost(即为自身),所以对于伪分布式Hadoop,SSH一样是必须的。
一、安装JDK 1.6 安装JDK的过程很简单,下面以Ubuntu为例。
(1)下载和安装JDK 确保可以连接到互联网,输入命令:sudo apt-get install sun-java6-jdk 输入密码,确认,然后就可以安装JDK了。
这里先解释一下sudo与apt这两个命令,sudo这个命令允许普通用户执行某些或全部需要root权限命令,它提供了详尽的日志,可以记录下每个用户使用这个命令做了些什么操作;同时sudo也提供了灵活的管理方式,可以限制用户使用命令。
sudo的配置文件为/etc/sudoers。
apt的全称为the Advanced Packaging Tool,是Debian计划的一部分,是Ubuntu的软件包管理软件,通过apt安装软件无须考虑软件的依赖关系,可以直接安装所需要的软件,apt会自动下载有依赖关系的包,并按顺序安装,在Ubuntu中安装有apt的一个图形化界面程序synaptic(中文译名为“新立得”),大家如果有兴趣也可以使用这个程序来安装所需要的软件。
(如果大家想了解更多,可以查看一下关于Debian计划的资料。
) (2)配置环境变量 输入命令:sudo gedit /etc/profile 输入密码,打开profile文件。
在文件的最下面输入如下内容:#set Java Environment export JAVA_HOME= (你的JDK安装位置,一般为/usr/lib/jvm/java-6-sun) export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH" export PATH="$JAVA_HOME/:$PATH" 这一步的意义是配置环境变量,使你的系统可以找到JDK。
(3)验证JDK是否安装成功 输入命令:java -version 查看信息:java version "1.6.0_14" Java(TM) SE Runtime Environment (build 1.6.0_14-b08) Java HotSpot(TM) Server VM (build 14.0-b16, mixed mode) 二、配置SSH免密码登录 同样以Ubuntu为例,假设用户名为u。
1)确认已经连接上互联网,输入命令 sudo apt-get install ssh 2)配置为可以无密码登录本机。
首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏文件夹),输入命令:ls -a /home/u 一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手动创建一个。
接下来,输入命令:ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 解释一下,ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。
(关于密钥密语的相关知识这里就不详细介绍了,里面会涉及SSH的一些知识,如果读者有兴趣,可以自行查阅资料。
) 在Ubuntu中,~代表当前用户文件夹,这里即/home/u。
这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是SSH的一对私钥和公钥,类似于钥匙及锁,把id_dsa.pub(公钥)追加到授权的key里面去。
输入命令:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。
至此无密码登录本机已设置完毕。
搭建一个hadoop2.x需要准备哪些软件
工具/原料linux系统(本篇使用的是CentOS v6.5)Hadoop安装包(本篇使用的是hadoop v2.6.0)环境要求1需要安装JDK6.0以上版本(可自行解压安装或使用自带的软件安装包,如yum)2需要无密码登录的SSH环境(安装ssh及sshd,具体配置步骤在后面介绍)END安装/配置 步骤1配置hosts文件,将主机名和对应IP地址映射。
如图中Master、Slave1和Slave2是我们要搭建分布式环境的机器。
Master为主机,Slavex为从机。
2配置SSH的无密码登录:可新建专用用户hadoop进行操作,cd命令进入所属目录下,输入以下指令(已安装ssh)ssh-keygen -t rsa -P ""cat .ssh/id_rsa.pub >>.ssh/authorized_keys解释一下,第一条生成ssh密码的命令,-t 参数表示生成算法,有rsa和dsa两种;-P表示使用的密码,这里使用“”空字符串表示无密码。
第二条命令将生成的密钥写入authorized_keys文件。
这时输入 ssh localhost,弹出写入提示后回车,便可无密码登录本机。
同理,将authorized_keys文件 通过 scp命令拷贝到其它主机相同目录下,则可无密码登录其它机器。
3安装hadoop:安装方式很简单,下载安装包到所属目录下,使用tar -zxvf 安装包名进行解压,解压完毕可通过mv 命令重命名文件夹,安装至此完成。
解压后的目录内容如图所示。
4hadoop配置过程:要实现分布式环境,配置过程是最为重要的,这里要涉及到的配置文件有7个:~/hadoop/etc/hadoop/hadoop-env.sh~/hadoop/etc/hadoop/yarn-env.sh~/hadoop/etc/hadoop/slaves~/hadoop/etc/hadoop/core-site.xml~/hadoop/etc/hadoop/hdfs-site.xml~/hadoop/etc/hadoop/mapred-site.xml~/hadoop/etc/hadoop/yarn-site.xml之后会分别介绍各个配置的的作用和配置关键5配置文件1:hadoop-env.sh该文件是hadoop运行基本环境的配置,需要修改的为java虚拟机的位置。
故在该文件中修改JAVA_HOME值为本机安装位置(如,export JAVA_HOME=/usr/lib/jvm/java-1.7.0)6配置文件2:yarn-env.sh该文件是yarn框架运行环境的配置,同样需要修改java虚拟机的位置。
在该文件中修改JAVA_HOME值为本机安装位置(如,export JAVA_HOME=/usr/lib/jvm/java-1.7.0)7配置文件3:slaves该文件里面保存所有slave节点的信息,以本篇为例写入以下内容(hosts里从机的主机名):Slave1Slave28配置文件4:core-site.xmlhadoop.tmp.dir/data/hadoop-${user.name}fs.default.namehdfs://Master:9000这个是hadoop的核心配置文件,这里需要配置的就这两个属性,fs.default.name配置了hadoop的HDFS系统的命名,位置为主机的9000端口;hadoop.tmp.dir配置了hadoop的tmp目录的根位置。
这里使用了一个文件系统中没有的位置,所以要先用mkdir命令新建一下。
9配置文件5:hdfs-site.xmldfs.http.addressMaster:50070dfs.namenode.secondary.http-addressMaster:50090dfs.replication1这个是hdfs的配置文件,dfs.http.address配置了hdfs的http的访问位置;dfs.replication配置了文件块的副本数,一般不大于从机的个数。
10配置文件6:mapred-site.xmlmapred.job.trackerMaster:9001 mapred.map.tasks20mapred.reduce.tasks4mapreduce.framework.nameyarnmapreduce.jobhistory.addressMaster:10020mapreduce.jobhistory.webapp.addressMaster:19888这个是mapreduce任务的配置,由于hadoop2.x使用了yarn框架,所以要实现分布式部署,必须在mapreduce.framework.name属性下配置为yarn。
mapred.map.tasks和mapred.reduce.tasks分别为map和reduce的任务数,至于什么是map和reduce,可参考其它资料进行了解。
其它属性为一些进程的端口配置,均配在主机下。
11配置文件7:yarn-site.xml yarn.resourcemanager.addressMaster:8032yarn.resourcemanager.scheduler.address Master:8030 yarn.resourcemanager.webapp.address Master:8088yarn.resourcemanager.resource-tracker.addressMaster:8031yarn.resourcemanager.admin.addressMaster:8033yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler该文件为yarn框架的配置,主要是一些任务的启动位置12将配置好的hadoop复制到其他节点scp –r ~/hadoop hadoop@Slave1:~/scp –r ~/hadoop hadoop@Slave2:~/END启动验证格式化namenode:./bin/hdfs namenode -format若出现如图所示提示,则格式化成功启动hdfs: ./sbin/start-dfs.sh此时在Master上面运行的进程有:namenode secondarynamenodeSlave1和Slave2上面运行的进程有:datanode启动yarn: ./sbin/start-yarn.sh此时在Master上面运行的进程有:namenode secondarynamenode resourcemanagerSlave1和Slave2上面运行的进程有:datanode nodemanager3检查启动结果查看集群状态:./bin/hdfs dfsadmin –report查看文件块组成: ./bin/hdfsfsck / -files -blocks查看HDFS: http://192.168.101.248:50070(主机IP)查看RM: http:// 192.168.101.248:8088(主机IP)正确情况如图显示
如何在windows下安装Eclipse Hadoop插件
在windows下安装Eclipse Hadoop插件主要安装编译Eclipse-hadoop插件即可。
1、配置环境变量:把下载好的hadoop-2.5.2解压到D盘的根目录下,然后计算机==》属性==》高级系统设置==》环境变量2、 把hadoop-eclipse-plugin-2.6.0.jar放到eclipse==》plugins目录下面,重启Eclipse,打开Window==》Preferences,能够看到Hadoop Map/Reduce就是插件安装成功,下面指定Hadoop的安装目录即第一步设定的HADOOP_HOME。
3、新建Map/Reduce Project工程4、输入工程名称,然后点击Finish按钮可以看到如下图所示,可以看到有新建的工程还有自动生成的DFS Locations,此时点击DFS Locations什么都不会看到,因为还没有配置其相应的HDFS:5、显示Hadoop的Map/Reduce Locations视图,配置Hadoop LocationsWindow==》Show View==》Other,找到Map/Reduce Tools下的Map/Reduce Locations,并点击ok。
设置下面几个参数:
hadoop的安装方法有哪几种
hdp hadoop 的安装 部署在什么位置之前有做过这种尝试,为此还看了Ambari的具体实现,对里面的部署过程进行了一些干预,最后是部署成了Apache Hadoop 1.2.1,但就HDFS功能正常,MapReduce是跑不起的,最后结论就是用Ambari的话,还是老老实实地装HDP吧,除非深入了解Ambari,然后改写它,但这样的话,还不如自己开发个自动部署Apache Hadoop的程序来的快些。
windows本地没有hadoop 下怎么配置linux 下的hadoop home
Windows下运行Hadoop,通常有两种方式:一种是用VM方式安装一个Linux操作系统,这样基本可以实现全Linux环境的Hadoop运行;另一种是通过Cygwin模拟Linux环境。
后者的好处是使用比较方便,安装过程也简单。
在这里咱们就来看看第二种方案:如何再Windows下快速安装一个Hadoop环境,并结合Eclipse开发环境研究和调整Hadoop代码。
整个安装过程包括以下三大步骤:安装和配置Cygwin(http://cygwin.com/install.html)安装和配置Hadoop-1.2.1(http://hadoop.apache.org/docs/stable/cluster_setup.html)安装和配置Eclipse开发环境1安装和配置Cygwin在Windows下通过安装Cygwin模拟Linux环境,然后再安装Hadoop,是一种简单方便的方式,为Hadoop准备的模拟Linux环境安装过程如下:1.1下载安装文件针对不同系统类型下载相应的安装文件,下载地址:http://cygwin.com/install.html。
我这里的系统是window 7所以下载的是setup-x86.exe1.2安装Cygwin刚刚下载的文件是模拟Linux系统所依赖的软件包下载和管理工具,以后想要在模拟Linux环境中安装或更新软件都需要通过这个工具来完成,下面我们就先运行起来这个工具如下:左键双击setup-x86.exe文件运行安装向导:cygwin安装点击【下一步】按钮进入程序引导安装页,这里有三个选项,选择第一项网络安装:网络安装:通过网络下载并安装软件包下载但不安装:通过网络下载软件包本地安装:是用本地软件包安装cygwin安装点击【下一步】进入选择模拟Linux系统的根目录和用户的向导页。
在Linux的文件系统中有且只有一个根目录,在这里选择目录就是Linux中的那个根目录了,这里选择默认:c:\cygwin;用户选择第一项:本系统的所有有效用户。
cygwin安装点击【下一步】选择本地软件包目录,该工具会自动记住并将以后下载的所有软件包都会放到这里指定的目录。
我这里选择:C:\Users\Administrator\Desktop\1,如果选择不存在目录,就好提示是否创建目录选Yes就OK。
cygwin安装点击【下一步】选择您的网络连接,我这里使用的是代理服务器上网,所以我选择第二项:使用IE浏览器代理设置。
经测试选择第三项输入代理服务器地址和端口,不能正常访问网络,原因不明。
cygwin安装点击【下一步】,等待下载镜像站点列表,下载完成后出现选择下载软件包的站点。
如图:cygwin安装根据自己的情况选择合适的下载地址,我这里选择了国内的163站点,点击【下一步】,这个工具就会自动下载软件包信息列表下载完成后进入安装软件包选择页,如下图:cygwin安装这一步比较重要,以下软件包要确保被安装:cygwin安装注:这个软件包列表由前到后包括:分类、当前安装版本,最新版本,安装可执行文件?,安装源代码文件?,大小,包名称和说明。
基础软件包:Base及其下面的所有软件包,操作方法:点击Base后面的Default为Install。
SSH相关软件包:Net下的OpenSSL和和OpenSSH,用于Hadoop需要的SSH访问,操作方法:点击【+】展开Net节点,点击各个软件包前的最新版本号列的Keep为版本号即为选中安装。
其他软件包根据自己的需要选中是否安装即可,我这里还选中了Emacs、VIM、Perl、Python、Ruby、Science、subversion等常用工具。
选择完软件包点击【下一步】,进入自动下载与安装,如下图:cygwin安装点击【下一步】进入向导结束页,勾选创建桌面快捷方式点击【完成即可】,如图:cygwin安装到这里,您已经完成了模拟Linux环境的安装,左键双击桌面上的图标打开这个模拟Linux的终端窗口输入几个常用Linux命令体验下这个模拟的Linux系统吧,除了可以执行Linux常用命令外,还可以执行Windows的命令例如:net start service_name等。
体验完成后继续下面的配置工作。
1.3配置Cygwin的SSH服务Cygwin安装完成后,需要先配置SSH服务,以满足Hadoop提出的SSH无密码登入,过程如下:打开模拟Linux的终端,进入Linux环境执行命令:ssh-host-config如图:Hadoop安装第一次询问:“Should privilege separation be used? (yes/no)”,输入no回车。
第二次询问:“Do you want to install sshd a service?”,输入yes回车。
第三次提示:“Enter the value of CYGWIN for the demon: []”,直接回车。
第四次询问:“Do you want to use a different name? (yes/no)”,输入no回车。
第五次提示:“Please enter the password for user 'cyg_server':”,输入密码回车,在此输入密码回车。
最后提示配置完成。
1.4启动SSH服务在Linux终端或Windows命令行执行net start sshd或命令cygrunsrv –S sshd启动SSH服务。
测试ssh登入本机:在终端执行命令:ssh localhost提示输入密码:输入密码回车,如下图:Hadoop安装 1.5配置SSH免密码登入在终端执行命令:ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa生成秘钥。
执行命令:cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys生成认证文件。
执行命令:ssh localhost测试是否无需输入密码即可登入。
Hadoop安装1.6Cygwin使用积累1.6.1在cygwin里访问Windows盘cd /cygdrive/c1.6.2整合cygwin命令到Windows中假设cygwin安装在d:/develop/...
hadoop环境搭建要多长
一、安装hadoop1 因为hadoop是基于java的,所以要保证hadoop能找到在本地系统中大路径,即正确设置java的环境变量。
详细请看:linux 安装配置jdk2 到官网:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 下载hadoop,这里我选择hadoop1.0.43 解压到 /usr/localtar -xvf hadoop-1.0.4.tar.gz4 设置hadoop环境变量,为了使环境变量永久有效并对所有用户有效,我们将下面两句添加到/etc/profileexport HADOOP_HOME=/usr/local/hadoop-1.0.4export PATH=$PATH:$HADOOP_HOME/bin5 验证hadoop是否可以运行hadoop versionok, 安装成功!(?不算安装吧,哈哈)二、配置伪分布式模式根据上面步骤安装成功后,hadoop处于独立模式即本机模式,在本机模式下,没有运行守护进程,所有程序运行在单个JVM上。
本机模式用于开发阶段测试调试MapReduce程序。
伪分布模式用于在本机上模拟一个小规模的集群,全分布模式配置较为复杂,留作后面的文章。
1 配置hadoop(1) 修改core-site.xml,设置namenode主机及hadoop文件系统fs.default.namehdfs://localhost:9001(2) 修改hdfs-site.xml,设置数据块副本数目dfs.replication1(3) 修改mapred-site.xml,设置jobtracker主机及端口mapred.job.trackerhdfs://localhost:9000(4)修改hadoop-env.sh,设置JAVA_HOME在hadoop-env.sh中添加,本机中jdk路径export JAVA_HOME=/usr/local/jdk1.7.02 配置SSH(1)如果没有安装SSH,安装之:sudo apt-get install ssh一般情况下,ubuntu默认安装openssh-client,但没有安装server,我们需要先安装server:sudo apt-get install openssh-server(2)基于空口令创建一个新的SSH密钥,启用无密码登录ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsacat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys(3)测试连接是否成功:ssh localhost 3 格式化HDFS文件系统以创建一个空大文件系统hadoop namenode -format4 启动守护系统HDFS和MapReducestart-dfs.shstart-mapred.sh5 查看守护进程启动情况jps如果显示:10716 DataNode11305 Jps10938 SecondaryNameNode10503 NameNode11037 JobTracker11251 TaskTrackerok, hadoop伪分布模式配置成功!
现在学习hadoop1.0还有用吗
没有,不过可以学习原理。
下面是之前的hadoop2还不稳定时候的看法:当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:(1)是否为开源软件,即是否免费。
(2) 是否有稳定版,这个一般软件官方网站会给出说明。
(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。
(4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。
考虑到以上几个因素,我们分析一下开源软件Hadoop。
对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(2012年12月23日),Apache和Cloudera最新的稳定版分别是Hadoop 1.0.4和CDH3U4,因此,你可以从中任选一个使用。
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。
如何配置Hadoop环境
如何配置Hadoop环境eclipse下去”java“下配置环境变量位置即可。
第一步:点击菜单栏的”windows“,之后选择”preference“。
第二步:找到”java“菜单下的”installed“,之后在此页面下点击”add“。
第三步:找到”jdk“的安装路径,之后点击”finsh“即可完成项目jdk环境变...
转载请注明出处51数据库 » hadoop安装软件环境