可以这样算,首先你要知道这个公司的数据量有多大,比如说有20pb,一般情况下,文件副本设置为3,那么就是60pb,这时候看电脑硬盘多大,然后用60pb除以单个硬盘的大小,得到的结果就是从节点的个数,为了以防万一,在这个节点数的基础上再多加几台。主节点的机器配置要求就比较高了,内存,硬盘之类的要比从节点好太多,主节点一般是一台,如果为了避免单点故障也就是主节点突然挂了,可以使用ha机制再增加一台主节点备用,这样一旦主节点出现问题,另一台主节点能立刻工作,不会出现数据丢失!
主节点不会存储数据,数据节点专门存储数据,主节点存储了元数据信息。
主节点的磁盘中存储了文件到块的关系,集群启动后,数据节点会报告名字节点 机器和块的关系,这两个关系组合起来便可找到文件所在机器的位置。
如果名字节点所在的机器也配置到slave文件里,那么此台机器即是名字节点也是数据节点!
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
![](/assets/images/loadings.gif)
上传中....