org.apache.kafka jar

我这边的应用是这样的： ①采集程序：使用avro方式将自定义对象序列化成字节流存入Kafka ②spark streaming：获取Kafka中的字节流，使用avro反序列化为自定义对象

　　曾经试过了用 spark streaming 读取 logstash 启动的 tcp server 的数据。不过如果你有多台 logstash 的时候，这种方式就比较难办了 —— 即使你给 logstash 集群申请一个 vip，也很难确定说转发完全符合。所以一般来说，更多的选择是采用 kafka 等队列方式由 spark streaming 去作为订阅者获取数据。