hadoop菜鸟入门教程

我不是高手，但我可以告诉你我怎么学习。①选择一个Hadoop的版本，然后阅读文档了解Hadoop：What's Hadoop, Why Hadoop exists；②安装Hadoop，三种方式都试下；③在Hadoop文档里面有Hadoop Command的资料，I.hdfs command，II.job command，尽量试试这两方面的命令；④Hadoop Files，看看Hadoop文件的概念，关注它的分布式特点，然后看看Reduce函数输出的文件；⑤自己写WordCount与Advanced WordCount；⑥写HDFS io，这个例子在《Hadoop In Action》里面有，讲得也不错。如copy，sequenceFile等；⑦写Sort程序；⑧写MRBench程序（这个网上有很多例子），了解MRBench是什么；⑨使用RandomTextWriter；10.模仿SequenceFileInputFormat、SequenceFileOutputFormat、SequenceFileRecordReader写自己的；11.yahoo有一个Hadoop的教程，英文版的，里面的内容很好；12.《hadoop权威指南》当参考书，自己实战了

　　这个不好回答了，不过我有一套很好的hadoop视频教程，可以从基础开始学习hadoop的平台搭建与管理，很有系统性的学习效果，你需要的可以加我779，591，710

　　虽然从事Hadoop方面工作，但是不是高手，毕竟只有一年经历而已。
分享下本人的学习经历吧。
了解Hadoop运行机制，可以学习Hadoop权威指南或者Hadoop实战；
了解Hadoop运行流程，看懂HADOOP_HOME/bin/下面主要执行脚本。
查看core-default.xml/hdfs-default.xml/mapred-default.xml等默认配置
文件，及core-site.xml/hdfs-site.xml/mapred-site.xml等相关文件，学会
如何进行参数优化，以及掌握如何配置读取压缩文件，默认的gzip，及
自定义的lzo，学会自定义Combiner/Patitioner等，掌握各种输入输出
格式的区别及应用场景，学会自定义输入输出格式，其次学习MapReduce算法，
比如In-Map-Combing，相对频度计算，Pairs算法，Strips算法等。掌握好
mapreduce编程。
在这其中，需要好好阅读HADOOP_HOME/src/目录下的Hadoop源码，
这个就是开源最大的好处。说的比较乱，但是就凑合着借鉴下吧

　　熟练掌握mapreduce编程，推荐书籍：《hadoop实战》《hadoop权威指南》《精通hadoop》等。