本文将介绍如何使用数据管理DMS任务编排调度Spark MLLib任务。
前提条件
背景信息
创建Spark虚拟集群
- 登录Data Lake Analytics管理控制台。
- 创建虚拟集群,详情请参见创建虚拟集群。
- 授予DLA删除OSS文件的权限,详情请参见写入数据。
上传数据和代码
使用DMS任务编排调度Spark任务
执行结果

本文将介绍如何使用数据管理DMS任务编排调度Spark MLLib任务。
0.0 0.0 0.0
0.1 0.1 0.1
0.2 0.2 0.2
9.0 9.0 9.0
9.1 9.1 9.1
9.2 9.2 9.2
package com.aliyun.spark
import org.apache.spark.SparkConf
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.sql.SparkSession
object SparkMLlib {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("Spark MLlib Kmeans Demo")
val spark = SparkSession
.builder()
.config(conf)
.getOrCreate()
val rawDataPath = args(0)
val data = spark.sparkContext.textFile(rawDataPath)
val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble)))
val numClusters = 2
val numIterations = 20
val model = KMeans.train(parsedData, numClusters, numIterations)
for (c <- model.clusterCenters) {
println(s"cluster center: ${c.toString}")
}
val modelOutputPath = args(1)
model.save(spark.sparkContext, modelOutputPath)
}
}
Just_Spark
,将描述设置为Just_Spark demo.
,单击确认。{
"name": "spark-mllib-test",
"file": "oss://oss-bucket-name/kmeans_demo/spark-mllib-1.0.0-SNAPSHOT.jar",
"className": "com.aliyun.spark.SparkMLlib",
"args": [
"oss://oss-bucket-name/kmeans_demo/data.txt",
"oss://oss-bucket-name/kmeans_demo/model/"
],
"conf": {
"spark.driver.resourceSpec": "medium",
"spark.executor.instances": 2,
"spark.executor.resourceSpec": "medium",
"spark.dla.connectors": "oss"
}
}
file
为FatJar文件在OSS中的绝对路径。
args
为data.txt与model在OSS中的绝对路径。
在文档使用中是否遇到以下问题
更多建议
匿名提交