我知道一点。 文件大小,hadoop默认的是64M,并行执行一方面是多个机器(一般是集群),同一个机器上又可以有多个线程同时执行。 Hadoop适合数据特别大的情况,小数据效率反而降低了。 并行计算涉及到很多方面,比如负载均衡,比如单点故障等
只能通过jobclient.getalljob()遍历所有job,通过username或者jobid获取对应jobstatus 对未完成的job可以通过jobclient.jobstocomplete()遍历所有未完成的job; 但仍需要通过username或者jobid获取对应得jobstatus。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....