线性的话,SVM得到超平面就是直线或平面,非线性的话通过核函数将其隐射到高维空间,在高维空间非线性问题转化为线性问题。
数据挖掘算法都是可以用于大数据挖掘,大数据简单来说只是说明数据量很大,一般指tb级别以上的,一台服务器无法处理,需要分布式系统来处理。
其中,数据挖掘经典十大算法为:c4.5,k-means,svm,apriori,em,pagerank,adaboost,knn,nb和cart。
常见的分布式计算有hadoop spark等,如果要实时计算的,一般用storm什么的。
用spark做kmeans算法的例子,里边导入的数据总是有sample_linear_regression_data.txt sample_svm_data。
用户登录
还没有账号?立即注册
用户注册
投稿取消
文章分类: |
|
还能输入300字
上传中....