触发shuffle的常见算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。要解决数据倾斜的问题,首先要定位数据倾斜发生在什么地方,首先是哪个stage,直接在Web UI上看就可以,然后查看运行耗时的task
1、准备文件并设置编码格式为utf-8并上传linux
2、新建一个java project
3、导入jar
4、编写map()和reduce()
5、将代码输出成jar
6、在linux中启动hdfs
7、修改两个配置文件
8、在linux中启动yarn
9、运行mapreduce
10、查看运行结果
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....