有不少做这类的,不过好的当然是到魔据很注重基础教育,刚开始有些枯燥,入门就好了,现在缺Hadoop人才,好好学会有前途。如果没有基础一般需要5个月,薪资不错。
impala比spark性能还要好,但你看它现在这个鸟样。
认真来讲,hadoop现在分三块hdfs/mr/yarn,spark比hadoop性能好,只是spark作为一个计算引擎,比mr的性能要好。但它的存储和调度框架还是依赖于hdfs/yarn,spark也有自己的调度框架,但仍然非常不成熟,基本不可商用。
目前来看,yarn在hadoop的发展过程中占的比重较多,而且作为一个调度和资源管理框架,它可以兼容多计算框架。而且现在大数据领域的框架底层存储基本都依赖于hdfs,这也就是为什么很多文章开头就说“hadoop已经是大数据领域的事实标准”。
回到问题,大数据领域,“性能”可能并不是衡量一个大数据组件的唯一标准,安全、可靠性、与其他框架的兼容性、资源管理、可扩展性同样很重要,而hadoop作为大数据领域的核心组件,这些方面肯定都需要考虑,而不单单是性能。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....