菜单 学习猿地 - LMONKEY

VIP

开通学习猿地VIP

尊享10项VIP特权 持续新增

知识通关挑战

打卡带练!告别无效练习

接私单赚外块

VIP优先接,累计金额超百万

学习猿地私房课免费学

大厂实战课仅对VIP开放

你的一对一导师

每月可免费咨询大牛30次

领取更多软件工程师实用特权

入驻
15
0

06RDD

原创
05/13 14:22
阅读数 22250

一、词频统计

1.读文本文件生成RDD lines

2.将一行一行的文本分割成单词 words flatmap()

3.全部转换为小写 lower()

4.去掉长度小于3的单词 filter()

5.去掉停用词

6.转换成键值对 map()

7.统计词频 reduceByKey()

8.按字母顺序排序 sortBy(f)

9.按词频排序 sortByKey()

 

 

 

 

 

 

 

 

 

map(), distinct(), count()

map(), countByKey()

map(), countByValue()

filter(), map() RDD

map(),lookup()  list

filter(), map(), sortBy()

map(),lookup(),mean()

相关热门文章

发表评论

0/200
15 点赞
0 评论
收藏
为你推荐 换一批