mapreduce 是一种编程模型, map是映射, reduce是规约。
也就是说, 有一批数据zhidao, map会将这些数据分成好多片小的内数据集, 然后进行处理, 然后将所有的结果都合在一起到reduce中去处理, 只不过 spark中不需要像 hadoop中那样每次都是强制性的 mapreduce了, 而是可以容灵活地 map.map.map.reduce。
mapreduce中的每个task分别在自己的进程中运行,当该task运行完的时候,该进程也就结束了。和mapreduce不一样的是,spark中多个task可以运行在一个进程里面,而且这个进程的生命周期和application一样,即使没有job在运行。
这个模型有什么好处呢?可以加快spark的运行速度!tasks可以快速地启动,并且处理内存中的数据。但是这个模型有的缺点就是粗粒度的资源管理,每个application拥有固定数量的executor和固定数量的内存。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....