mapreduce 是一种编程模型, map是映射, reduce是规约。
也就是说, 有一批数据, map会将这些数据分成好多片小的数据集, 然后进行处理, 然后将所有的结果都合在一起到reduce中去处理, 只不过 spark中不需要像 hadoop中那样每次都是强制性的 mapreduce了, 而是可以灵活地 map.map.map.reduce。
a.由于mapreduce的shuffle过程需写磁盘,比较影响性能;而spark利用rdd技术,计算在内存中进行.b.mapreduce计算框架(api)比较局限,而spark则是具备灵活性的并行计算框架.c.再说说sparkapi方面-scala:scalablelanguage,据说是进行并行计算的最好的语言.与java相比,极大的减少代码量.
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....