本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
本文指引您快速完成一次完整的Databricks数据洞察的使用操作。
前提条件
已使用OSS管理控制台创建非系统目录存储空间,详情请参见创建存储空间。
首次使用DDI产品创建的Bucket为系统目录Bucket,不建议存放数据,您需要再创建一个Bucket来读写数据。
DDI访问OSS路径结构:oss://BucketName/Object
BucketName为您的存储空间名称;
Object为上传到OSS上的文件的访问路径。
例:读取在存储空间名称为databricks-demo-hangzhou文件路径为demo/The_Sorrows_of_Young_Werther.txt的文件
// 从oss地址读取文本文档
val text = sc.textFile("oss://databricks-demo-hangzhou/demo/The_Sorrows_of_Young_Werther.txt")
步骤一:创建集群
使账号登录Databricks管控台。
在Databricks数据洞察控制台页面,选择所在的地域(Region)。
创建的集群将会在对应的地域内,一旦创建后不能修改。
输入集群名称,勾选服务条款。
其他参数如无特殊需求,可直接使用默认值。创建集群的具体步骤请参见创建集群。
单击创建。
步骤二:添加安全组白名单
要创建NoteBook,需要添加安全组白名单。默认不添加不能访问。
创建好集群之后,进入集群详情页。
在集群基础信息->集群操作->安全组白名单进行配置页面。
白名单配置方法请参见-安全组白名单。
步骤三:创建Notebook
在左侧导航栏中,单击Notebook。
在Notebook区域,选择待操作的集群。
单击Create new note。
在Create New Note对话框中,输入Note Name、从Default Interpreter列表,选择spark。
单击Create。
步骤四:创建表
单击已创建的Note名称。
在DataInsight Notebook页面,在单元格中创建数据库。
%spark.sql create database db_demo location '/user/hive/warehouse';
在default数据库中建表会提示失败,因此需要新建一个数据库。新建数据库需要指定存储空间location,否则无法导入数据到数据库。本文的location均为示例,请您更换为您实际的location。
在单元格创建表。
%spark.sql use db_demo; create table db_bank_demo(age string, job string, marital string, education string, default string, balance string, housing string, loan string, contact string, day string, month string, duration string, campaign string, pdays string, previous string, poutcome string, y string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ';';
导入数据到数据库。
示例文件:bank.csv。
您可以下载此示例文件,上传到您的OSS目录并导入。
%spark.sql use db_demo; load data inpath 'oss://databricks-dbr/db_demo/bank/bank.csv' overwrite into table db_bank_demo; describe db_bank_demo;
导入成功后,查看表信息如下所示。
步骤五:查询数据
数据表导入后可以通过spark sql读取数据。
%spark.sql
select age, count(1) from db_bank_demo where age < ${maxAge=30} group by age order by age
步骤六:查看数据展示
在DataInsight Notebook页面,查看可视化数据展示信息。
步骤七:查看元数据
在左侧导航栏,单击元数据。
选择待查看的数据库。
在数据库信息页面,查看数据库和表详情。