c hadoop

提供海量数据存储和计算的。需要java语言基础。
Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。
Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

扩展资料
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。能够对大量数据进行分布式处理的软件框架Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。
参考资料：搜狗百科-Hadoop

　　他的实现是jobtracker中的getnumberofuniquehosts, 这个方法主要用来干什么呢？public int getnumberofuniquehosts() uniquehostsmap的定义为：mapuniquehostsmap = new concurrenthashmap();

　　要有java语言基础，和 linux系统命令基础。
hadoop是运行的系统要求是 linux。
hadoop 用 java写的分布式，处理大数据的框架。
只要思想是分组合并思想
分组：比如有一个大型数据，那么他就会将这个数据按照算法分成多份，每份存储在奴隶主机上，并且在奴隶主机上进行计算。
合并：将每个机器上的计算结果合并起来再在一台机器上计算，得到最终结果。
就是mapreduce 算法。

　　hadoop是什么？
hadoop是一个平台，是一个适合大数据的分布式存储和计算的平台。什么是分布式存储？这就是后边我们要讲的hadoop核心之一HDFS；什么是分布式计算？这是我们后边要讲的hadoop另外一个重要的核心MapReduce。
hadoop的优点一：低成本
hadoop本身是运行在普通PC服务器组成的集群中进行大数据的分发及处理工作的，这些服务器集群是可以支持数千个节点的。
hadoop优点二：高效性
这也是hadoop的核心竞争优势所在，接受到客户的数据请求后，hadoop可以在数据所在的集群节点上并发处理。
hadoop优点三：可靠性
通过分布式存储，hadoop可以自动存储多份副本，当数据处理请求失败后，会自动重新部署计算任务。
hadoop优点四：扩展性
hadoop的分布式存储和分布式计算是在集群节点完成的，这也决定了hadoop可以扩展至更多的集群节点。
hadoop安装方式|hadoop部署方式
hadoop安装方式只有三种：本地安装；伪分布安装；集群安装。后期我们会专题进行讲解。

　　Hadoop在2006年开始成为雅虎项目，随后晋升为顶级Apache开源项目。它是一种通用的分布式系统基础架构，具有多个组件：Hadoop分布式文件系统(HDFS)，它将文件以Hadoop本机格式存储并在集群中并行化; YARN，协调应用程序运行时的调度程序; MapReduce，这是实际并行处理数据的算法。Hadoop使用Java编程语言构建，其上的应用程序也可以使用其他语言编写。用一个Thrift客户端，用户可以编写MapReduce或者Python代码。

除了这些基本组件外，Hadoop还包括Sqoop，它将关系数据移入HDFS; Hive，一种类似SQL的接口，允许用户在HDFS上运行查询; Mahout，机器学习。除了将HDFS用于文件存储之外，Hadoop现在还可以配置使用S3 buckets或Azure blob作为输入。
它可以在Apache发行版开源，也可以用Cloudera(规模和范围最大的Hadoop供应商)，MapR或HortonWorks等厂商提供。