大数据的hadoop和spark都是大数据开发所用到的一种开发软件工具, 合格的大数据开发工程师需要掌握的技能很多,具体岗位(大数据开发,大数据分析,数据产品经理等)要求的重点不同。
如何使用spark/scala读取hbase的数据 必须使用高亮参数启动spark-shell,否则当你遍历rdd时会出现如下的exception java.io.notserializableexception: org.apache.hadoop.hbase.io.immutablebyteswritable spark-shell--conf spark.serializer=org.apache.spark.serializer.kryoserializer 以下代码,经过maprdb实测通过 import org.apache.spark._ import org.apache.spark.rdd.newhadooprdd import org.apache.hadoop.hbase.{hbaseconfiguration, htabledescriptor} import org.apache.hadoop.hbase.client.hbaseadmin import org.apache.hadoop.hbase.mapreduce.tableinputformat import org.apache.hadoop.fs.path; import org.apache.hadoop.hbase.hcolumndescriptor import org.apache.hadoop.hbase.util.bytes import org.apache.hadoop.hbase.client.put; import org.apache.hadoop.hbase.client.htable; val tablename = "/app/subscriptionbillingplatform/transac_id" val conf = hbaseconfiguration.create() conf.set(tableinputformat.input_table, tablename) //create rdd val hbaserdd = sc.newapihadooprdd(conf, classof[tableinputforma...
Hadoop|
Apache Pig|
Apache Kafka|
Apache Storm|
Impala|
Zookeeper|
SAS|
TensorFlow|
人工智能基础|
Apache Kylin|
Openstack|
Flink|
MapReduce|
大数据|
云计算|
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....