你说的过程在map输出到reduce输入之间进行,由hadoop自己进行,你没有设置就是用默认方式进行处理,主要是将map输出按key进行排序分组,这样reduce得到的就是一个个key相同的集合了。你可以去翻翻源码
sections对象是“节”的对象,count属性就是“节”的个数,与段落与无关。
如果你的文档中,没有“分节符”插入话,那整个文档就只有一个节,所以
activedocument.sections.count的返回值总是1
你可以在文档中插入分节符试试,方法是:
菜单“插入”--》“分隔符”--》里面就有“分节符”。
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....