PySpark是Spark提供的Python API。您可以通过PySpark提供的DataFrame接口,完成各种计算逻辑。本文为您介绍PySpark的基础操作。
操作步骤
通过SSH方式连接集群,详情请参见登录集群。
执行以下命令,进入PySpark交互式环境。
pyspark
更多命令行参数请执行
pyspark --help
查看。初始化SparkSession。
from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate()
创建DataFrame。
from datetime import datetime, date import pandas as pd from pyspark.sql import Row df = spark.createDataFrame([ (1, 2., 'string1', date(2000, 1, 1), datetime(2000, 1, 1, 12, 0)), (2, 3., 'string2', date(2000, 2, 1), datetime(2000, 1, 2, 12, 0)), (3, 4., 'string3', date(2000, 3, 1), datetime(2000, 1, 3, 12, 0)) ],schema='a long, b double, c string, d date, e timestamp')
DataFrame创建完成后,您就可以通过各种类型的transform算子完成数据计算。
打印DataFrame和Schema。
df.show() df.printSchema()
文档内容是否对您有帮助?