sas 随机抽样

在构建数据挖掘模型过程中，有时我们无法对所有的整体进行全面研究，有时我们希望将整体划分为训练集、验证集、测试集三份用于不同目的的数据集，甚至在K-折交叉验证中，我们需要把样本随机的划分为K份数据子集。本文介绍SAS的SURVEYSELECT过程和RANUNI函数在随机抽样方面的应用。
0、读入数据集，并对数据集按分层变量进行排序。本文数据集采用students.txt：
* 从students.txt读入文件到数据集students;
DATA students;
INFILE ‘C:\students.txt’;
INPUT id class $ gender $ math english history chem phys literat;
RUN;
* 查看数据集内容;
PROC PRINT DATA = students;
TITLE ‘Students”s class gender & scores’;
RUN;
* 对二维列联表（班级、性别）进行频数统计;
PROC FREQ DATA = students;
TABLES class * gender /NOPERCENT NOR