spark rdd cassandra

rdd这种对象都是spark的api，哪会有啥不同？
说不同的话，应该是在本地跑spark分析任务和集群跑spark分析任务会有一些差别。在本地跑时处理大文件比较费劲，可能容易内存溢出；集群跑时需要注意占内存的参数需要广播变量，否则影响集群分析的性能。

　　虽然我很聪明，但这么说真的难到我了