Hadoop主要用来进行并行计算。
例如:一个大数据,有10GB。若集群中有10个计算节点,那么经过Hadoop框架拆分后,每个节点只需计算1GB的数据即可,这样大大减少了计算时间。像日志分析、PageRank计算等,一句话,就是将大任务分解为小任务。
在学习时,有两本书可以推荐给你:《Hadoop权威指南》、《实战Hadoop:开启通向云计算的捷径》。需要注意的地方就是将MapReduce框架掌握好,自己多写几个程序,API多看看。另外集群的配置参数也多学习学习。
我一开始学习的时候也是一头雾水,不过在自己写过几个程序后就觉得非常明朗了,所以你也要多实际应用应用。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....