PySpark基础操作_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

PySpark是Spark提供的Python API。您可以通过PySpark提供的DataFrame接口，完成各种计算逻辑。本文为您介绍PySpark的基础操作。

操作步骤

通过SSH方式连接集群，详情请参见登录集群。
执行以下命令，进入PySpark交互式环境。
```
pyspark
```
更多命令行参数请执行pyspark --help 查看。

初始化SparkSession。

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

创建DataFrame。

from datetime import datetime, date
import pandas as pd
from pyspark.sql import Row

df = spark.createDataFrame([
    (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)),
    (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)),
    (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0))
],schema='a long, b double, c string, d date, e timestamp')

DataFrame创建完成后，您就可以通过各种类型的transform算子完成数据计算。

打印DataFrame和Schema。
```
df.show()
df.printSchema()
```