sample是在数据源取样。
val data = sc.parallelize(1 to 20) data.sample(true,0.4).collect
sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。
sample第二个参数表示抽样的数量量,0.4代表是40%
© 著作权归作者所有
举报
发表评论
0/200
sample是在数据源取样。
val data = sc.parallelize(1 to 20) data.sample(true,0.4).collect
sample第一个参数表示是否是重复抽样,如果是true,则抽象的结果可能会有重复的数字。而false代表抽样的结果是没有重复的。
sample第二个参数表示抽样的数量量,0.4代表是40%
© 著作权归作者所有
发表评论