PySpark是Spark提供的Python API。您可以通过PySpark提供的DataFrame接口,完成各种计算逻辑。本文为您介绍PySpark的基础操作。

操作步骤

  1. 初始化SparkSession。
    初始化SparkSession作为PySpark的执行入口。
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.getOrCreate()
  2. 创建DataFrame。
    from datetime import datetime, date
    import pandas as pd
    from pyspark.sql import Row
    
    df = spark.createDataFrame([
        (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
        (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
        (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
    ], schema='a long, b double, c string, d date, e timestamp')

    DataFrame创建完成后,您就可以通过各种类型的transform算子完成数据计算了。

  3. 打印DataFrame和Schema。
    df.show()
    df.printSchema()