hadoop大数据平台架构

可以这样算，首先你要知道这个公司的数据量有多大，比如说有20pb，一般情况下，文件副本设置为3，那么就是60pb,这时候看电脑硬盘多大，然后用60pb除以单个硬盘的大小，得到的结果就是从节点的个数，为了以防万一，在这个节点数的基础上再多加几台。主节点的机器配置要求就比较高了，内存，硬盘之类的要比从节点好太多，主节点一般是一台，如果为了避免单点故障也就是主节点突然挂了，可以使用ha机制再增加一台主节点备用，这样一旦主节点出现问题，另一台主节点能立刻工作，不会出现数据丢失！

　　主节点不会存储数据，数据节点专门存储数据，主节点存储了元数据信息。
主节点的磁盘中存储了文件到块的关系，集群启动后，数据节点会报告名字节点机器和块的关系，这两个关系组合起来便可找到文件所在机器的位置。
如果名字节点所在的机器也配置到slave文件里，那么此台机器即是名字节点也是数据节点！