PySpark有哪些基础操作_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

PySpark是Spark提供的Python API。您可以通过PySpark提供的DataFrame接口，完成各种计算逻辑。本文为您介绍PySpark的基础操作。

操作步骤

初始化SparkSession。

初始化SparkSession作为PySpark的执行入口。

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

创建DataFrame。

from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
], schema='a long, b double, c string, d date, e timestamp')

DataFrame创建完成后，您就可以通过各种类型的transform算子完成数据计算了。

打印DataFrame和Schema。
```
df.show()
df.printSchema()
```