PySpark是Spark提供的Python API。您可以通过PySpark提供的DataFrame接口,完成各种计算逻辑。本文为您介绍PySpark的基础操作。
操作步骤
- 初始化SparkSession。
初始化SparkSession作为PySpark的执行入口。
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
- 创建DataFrame。
from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row
df = spark.createDataFrame([
(1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
(2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
(3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
], schema='a long, b double, c string, d date, e timestamp')
DataFrame创建完成后,您就可以通过各种类型的transform算子完成数据计算了。
- 打印DataFrame和Schema。
df.show()
df.printSchema()