hadoop数据处理

Hadoop被设计用来在大型数据集上能进行有效的工作。Hadoop有一个专为大尺寸文件(如几G)设计的文件系统(HDFS)。因此，如果你的数据文件尺寸只是几M的话，建议你合并(通过zip或tar)多个文件到一个文件中，使其尺寸在几百M到几G范围内。HDFS把大文件们拆分存储到以64MB或128MB或更大的块单元中。
如果你的数据集相对较小，那它就不会是hadoop的巨型生态系统的最佳使用之地。这需要你去对你的数据比以往理解更多一些，分析需要什么类型的查询，看看你的数据是否真得“大”。另一方面，只是通过数据库的大小来测量数据可能是骗人的，因为你的计算量可能会更大。有时你可能会做更多的数学计算或分析小数据集的排列，这些可以远远大于实际的数据。所以关键是要“了解你的数据，并且很清楚它”。你的数据仓库或是其它数据源中可能拥有数个TB的数据。然而，在建立 Hadoop 集群前，你必须考虑到数据的增长。

　　1，hadoop是大数据分析的完整生态系统，从数据采集，存储，分析，转运，再到页面展示，构成了整个流程采集可以用flume，存储用hbase，hdfs，mangodb就相当于hbase，分析用mapreduce自己写算法，还有hive做数据仓库，pig做数据流处理，转储方面有sqoop，可以将hdfs中的数据转换存储到mysql，oracle等传统数据库，这就构成了一整套大数据分析的整个流程
2，mangodb只是充当存储功能，是一款nosql数据库，支持以json的格式存储
3，所以从功能上来讲，hadoop和mangodb是不一样的，hadoop中可以用mangodb替换hbase，但是mangodb不能替换hadoop，一个是完整的生态系统，一个是数据库，两个不一样的概念
4，至于选择用mangodb还是hbase，各有优劣，不过使用较多的还是hbase，mangodb社区没有hbase活跃，所以还是hbase吧