hadoop与大数据

大数据是一系列技术的统称，经过多年的发展，大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节，这些环节涉及到诸多大数据工作岗位，这些工作岗位与物联网、云计算也都有密切的联系。
大数据技术的三个重点：Hadoop、spark、storm。Hadoop本身就是大数据平台研发人员的工作成果，Hadoop是目前常见的大数据支撑性平台，Hadoop平台提供了分布式存储（HDFS）、分布式计算（MapReduce）、任务调度（YARN）、对象存储（Ozone）和组件支撑服务（Common）。

　　hadoop是一个开源的大数据分析软件，或者说编程模式。它是通过分布式的方式处理大数据的，因为开元的原因现在很多的企业或多或少的在运用hadoop的技术来解决一些大数据的问题，在数据仓库方面hadoop是非常强大的。但在数据集市以及实时的分析展现层面，hadoop也有着明显的不足，现在一个比较好的解决方案是架设hadoop的数据仓库而数据集市以及实时分析展现层面使用永洪科技的大数据产品，能够很好地解决hadoop的分时间长以及其他的问题。

　　Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

简单说，Hadoop或者说Hadoop生态圈，是为了解决大数据应用场景而出现的，它包含了文件系统、计算框架、调度系统等，Spark是Hadoop生态圈里的一种分布式计算引擎。

　　因为当数据非常巨大时，如 XXX TB 甚至 XXX PB, 区区一台服务器就很难处理过来了。
所以就需要使用 N 台服务器，组成一个群集，共同处理庞大的数据，这样就能极大提升效率了。
Hadoop其实就是一个分布式的文件系统，数据会分布到 N 台服务器中，一旦需要处理数据，则 N 台服务器共同进行处理，再把各个中间结果汇总成最后的结果。
当然，这需要特别的算法，不能再使用传统的算法了，这就要使用 MapReduce 框架了。
我们万能的淘宝就是使用了 hadoop 的，你想想上年双十一那一千亿交易额，其中累积起来的数据可是很惊人的。