使用PySpark进行单词计数的案例

更新时间: 2024-04-02 09:15:33

# WordCount案例

使用学习到的内容,完成:

  • 读取文件
  • 统计文件内,单词的出现数量

# 代码

"""
完成练习案例:单词计数统计
"""
# 1.构建执行环境入口对象
from pyspark import SparkConf,SparkContext
import os
os.environ['PYSPARK_PYTHON'] = "D:/python/python3.10.0/python.exe"

conf = SparkConf().setMaster("local[*]").setAppName("count_app")
sc = SparkContext(conf=conf)

# 2.读取数据文件
rdd = sc.textFile("./hello.txt")

# 3.取出全部单词
rdd1 = rdd.flatMap(lambda x: x.split(" "))

# 4.将所有单词都转换成二元元组,单词为key,value设置为1
rdd2 = rdd1.map(lambda x: (x, 1))

# 5.分组并求和
rdd3 = rdd2.reduceByKey(lambda a, b: a + b)

# 6.打印并输出结果
print(rdd3.collect())
# [('itcast', 3), ('python', 6), ('itheima', 8), ('spark', 4), ('pyspark', 3)]

sc.stop()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28