我不是高手,但我可以告诉你我怎么学习。①选择一个Hadoop的版本,然后阅读文档了解Hadoop:What's Hadoop, Why Hadoop exists;②安装Hadoop,三种方式都试下;③在Hadoop文档里面有Hadoop Command的资料,I.hdfs command,II.job command,尽量试试这两方面的命令;④Hadoop Files,看看Hadoop文件的概念,关注它的分布式特点,然后看看Reduce函数输出的文件;⑤自己写WordCount与Advanced WordCount;⑥写HDFS io,这个例子在《Hadoop In Action》里面有,讲得也不错。如copy,sequenceFile等;⑦写Sort程序;⑧写MRBench程序(这个网上有很多例子),了解MRBench是什么;⑨使用RandomTextWriter;10.模仿SequenceFileInputFormat、SequenceFileOutputFormat、SequenceFileRecordReader写自己的;11.yahoo有一个Hadoop的教程,英文版的,里面的内容很好;12.《hadoop权威指南》当参考书,自己实战了
这个不好回答了,不过我有一套很好的hadoop视频教程,可以从基础开始学习hadoop的平台搭建与管理,很有系统性的学习效果,你需要的可以加我779,591,710
虽然从事Hadoop方面工作,但是不是高手,毕竟只有一年经历而已。
分享下本人的学习经历吧。
了解Hadoop运行机制,可以学习Hadoop权威指南或者Hadoop实战;
了解Hadoop运行流程,看懂HADOOP_HOME/bin/下面主要执行脚本。
查看core-default.xml/hdfs-default.xml/mapred-default.xml等默认配置
文件,及core-site.xml/hdfs-site.xml/mapred-site.xml等相关文件,学会
如何进行参数优化,以及掌握如何配置读取压缩文件,默认的gzip,及
自定义的lzo,学会自定义Combiner/Patitioner等,掌握各种输入输出
格式的区别及应用场景,学会自定义输入输出格式,其次学习MapReduce算法,
比如In-Map-Combing,相对频度计算,Pairs算法,Strips算法等。掌握好
mapreduce编程。
在这其中,需要好好阅读HADOOP_HOME/src/目录下的Hadoop源码,
这个就是开源最大的好处。说的比较乱,但是就凑合着借鉴下吧
熟练掌握mapreduce编程,推荐书籍:《hadoop实战》《hadoop权威指南》《精通hadoop》等。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....