hadoop可以使用Configuration在Job的生命周期保存简单变量,当遇到复杂的变量是可能处理起来就比较困难了,如将一个对象或者集合作为全局变量传递,这时Configuration就不能满足需求了,不过可以试着将对象序列化保存成文件,然后使用DistributeCache,当时这方法不是太好看。要是在Job还需要实现对全局变量的修改,并且修改需要应该到之后Task的运行,那个人觉得hadoop就无能为力了,也许可以引入其他第三方工具,具体我并不了解
肯定是不起作用的,想一个最简单的例子,分布式计算,这个map可能在很多台机器上同时运行,那么每台机器上mapper都有这个全局变量,对它的任何改动都不会传递到后面的单台或者多台reduce机器上。
hadoop有很多种方式来支持共享数据,较为常用的可以使用分布式缓存,适用的场景是共享的数据量较小的情况
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....