但是该方法在处理大型文件时效率极低,因为一台机器必须处理所有输出文件,从而完全丧失了MapReduce所提供的并行架构的优势。
mapreduce其实不适合做机器学习,更适合进行大规模数据的处理
因为机器学习是计算密集型的任务,通常需要反复的迭代,而mapreduce中间数据存放在磁盘上,速度很慢。
机器学习算法建议使用mpi框架或者spark ml
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....