apache pig 对比 spark

大数据的hadoop和spark都是大数据开发所用到的一种开发软件工具，合格的大数据开发工程师需要掌握的技能很多，具体岗位（大数据开发，大数据分析，数据产品经理等）要求的重点不同。

　　如何使用spark/scala读取hbase的数据必须使用高亮参数启动spark-shell,否则当你遍历rdd时会出现如下的exception java.io.notserializableexception: org.apache.hadoop.hbase.io.immutablebyteswritable spark-shell--conf spark.serializer=org.apache.spark.serializer.kryoserializer 以下代码,经过maprdb实测通过 import org.apache.spark._ import org.apache.spark.rdd.newhadooprdd import org.apache.hadoop.hbase.{hbaseconfiguration, htabledescriptor} import org.apache.hadoop.hbase.client.hbaseadmin import org.apache.hadoop.hbase.mapreduce.tableinputformat import org.apache.hadoop.fs.path; import org.apache.hadoop.hbase.hcolumndescriptor import org.apache.hadoop.hbase.util.bytes import org.apache.hadoop.hbase.client.put; import org.apache.hadoop.hbase.client.htable; val tablename = "/app/subscriptionbillingplatform/transac_id" val conf = hbaseconfiguration.create() conf.set(tableinputformat.input_table, tablename) //create rdd val hbaserdd = sc.newapihadooprdd(conf, classof[tableinputforma...