应该说这个和是不是Spark项目没什么关系。 建议你使用intellij idea,在spark目录下执行"sbt/sbt gen-idea",会自动生成.idea项目,导入即可。 idea我不熟,还需要做一些其他的插件配置(python, sbt等)和环境设置。 你也可以使用Eclipse看,Ecli...
设置环境变量:hadoop_home,在windows下调试eclipse时,并不需要在windows下安装hadoop,只需要配置一下环境变量就好了,然后hadoop_home执行的位置的bin下要有winutils.exe,设置环境变量的方式不用讲了吧!
在eclipse项目中添加spark-assembly-1.4.1-hadoop2.4.0.jar,这里添加你需要的版本。
注意,不要使用spark的分散的jar包,这一点主要是maven时需要注意,因为maven时它会下载好多jar,这里会引进第二个问题,序列化问题,应该是scala的问题。
设置环境变量spark_classpath,这个环境变量不是必须的,你看一下你的服务器是不是设置了。
其实这一步和下面的一步本质作用是一样的,都是告诉spark依赖的jar,而告诉spark依赖jar的方法有两种,一种是设置环境变量,另一种是addjar方式。作者是这样认为,如果公用的jar,那么就通过设置环境变量的方式,如果是算法私有的jar,就通过addjar方式。
注意,环境变量spakr_classpath的值是unix方式,就是跟服务器设置的一样,不要用win的方式“;”,为啥呢?作者认为,通过设置环境变量的方式时,在初始化spark上下文时,并没有分发jar到各个worker,所以需要指定jar在服务器的位置。(有问题的话,请留言,嘴拙)
addjar方式,上面讲过了。
与环境变量的方式区别在于,驱动程序启动,初始化上下文时,需要分发jar到各个worker,所以针对私有的jar,最好使用addjar方式。
到了这里,应该全部配置完成了,如果我讲述的比较清晰的话,你应该可以随意调试了。
如果存在问题,请指正。如果有疑问,请留言。
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....