用大模型对电影数据做观众偏好分析-阿里云帮助中心

本实验中，您将学会使用阿里云DataV-Note进行电影评价数据的分析探索，通过借助大模型的能力，在“零代码”模式下对复杂多维数据进行分析探索，通过数据洞察背后的复杂商业逻辑。

实验简介

背景知识

DataV-Note（智能数据分析报告）：是DataV系列下基于大模型面向数据分析的智能工具；它支持通过自然语言对话进行Python、SQL等数据分析，并提供丰富的数据可视化能力，支持面向PC、手机等多种使用场景的数据报告分享。

实验室资源方式简介

进入实操前，请确保阿里云账号满足以下条件：

个人账号资源
- 使用您个人的云资源进行操作，资源归属于个人。
- 所有实验操作将保留至您的账号，请谨慎操作。
- 平台仅提供手册参考，不会对资源做任何操作。
确保已完成云工开物300元代金券领取。
已通过实名认证且账户余额≥0元。
实验资源说明：本次实验使用DataV Note个人版包年（￥30.00），将使用300元专属权益优惠券进行费用抵扣（如已兑换过该资源包，且资源包在可使用时间范围内，无需重复兑换，可直接开启实验）
本实验产生的费用优先使用优惠券。如果您调整了资源规格、使用时长，或执行了本方案以外的操作，可能导致费用发生变化，请以控制台显示的实际价格和最终账单为准。
实操结束后，如通过云工开物代金券购买的产品，无需进行注销；如注销产品，代金券不会返还。

领取专属权益及开通资源

在开始实验之前，请先点击右侧屏幕的“进入实操”再进行后续操作

第一步：领取专属权益

本次实验需要您通过领取阿里云云工开物学生专属300元抵扣券兑换本次实操的云资源，如未领取请先点击领取。（若已领取请跳过）

重要

实验产生的费用优先使用优惠券，优惠券使用完毕后需您自行承担。

学生认证

第二步：开通资源

领取学生专属300元优惠券后，使用代金券领取阿里云DataV产品

重要

如已兑换过该资源包，且资源包在可使用时间范围内，无需重复兑换，可直接开启实验。

DataV-Note数据分析报告：DataV系列下基于大模型面向数据分析的智能工具；它支持通过自然语言对话进行Python、SQL等数据分析，并提供丰富的数据可视化能力
点击前往领取DataV Note智能分析报告产品：领取DataV Note学生版包月
选择-学生版-1个月，并使用云工开物代金券支付
若立即购买按钮置灰，并提示需创建服务关联角色，请先点击【请先创建服务关联角色】
创建好服务关联角色后，请确认使用了云工开物代金券进行抵扣，点击【立即购买】

实验步骤

1、登录DataV Note工作台

点击前往DataV Note工作台

2、数据导入

下载3份电影评价相关数据（都需要下载），并保存到本地
- 数据来源
  公开研究数据集，信息参考： F. Maxwell Harper and Joseph A. Konstan. 2015. The MovieLens Datasets: History and Context. ACM Transactions on Interactive Intelligent Systems (TiiS) 5, 4, Article 19 (December 2015), 19 pages. DOI=http://dx.doi.org/10.1145/2827872
- 数据说明
  - 【电影名称.csv】数据内容说明：
    - 数据包含：MovieID、Title（电影名称）、Genres（电影类型）共三个字段；
    - 点击下载：电影名称.csv
  - 【观众信息.csv】数据内容说明：
    - 数据包含UserID、Gender（性别）、Age（年龄）、Occupation（职业）、Zip-code（邮编）共五个字段；
    - 点击下载：观众信息.csv
  - 【观众评价.csv】数据内容说明：
    - 数据包含UserID、MovieID、Rating（电影评分）、Timestamp（评分时间）共四个字段；
    - 点击下载：观众评价.csv
新建分析项目
- 登录产品后，点击左侧工具栏【新建项目】
- 项目命名
- 点击项目，进入编辑器
- 进入编辑器状态
导入数据
- 导入电影名称数据
  - 点击工具栏左侧——【文件数据集】——【数据】
  - 点击【浏览本地文件】
  - 弹出对话框，选择下载的电影名称.csv
  - 点击工具栏左侧——【文件数据集】——【电影名称.csv】数据旁边的三个小点菜单，在弹出的菜单中选择【创建SQL查询】选项
  - 数据查询表格生成之后，鼠标移动到左下角数据表名【result_1】上，在弹出的窗口中将数据表格类型选择为【DataFrame】
    （非常重要！DataFrame是python数据分析中重要的格式类型，后续以此开展分析）
  - 鼠标双击左下角数据表名【result_1】，将表名改为【movie】
    （非常重要！表名【movie】是后续python数据分析中引用的变量名称，如不一致后续大模型提示词会出错）
  - 检查电影名称数据是否正确命名为【movie】
- 导入观众评价数据
  与上述操作类似，将【观众评价.csv】数据导入并执行SQL查询，并检查以下内容：
  - 数据查询结果表是否命名为【rates】
    （非常重要！如不一致后续大模型提示词会出错！）
  - - 数据查询结果表是否格式设置为【DataFrame】
      （非常重要！如不一致后续大模型提示词会出错！）
- 导入观众信息数据
  与上述操作类似，将【观众信息.csv】数据导入并执行SQL查询，并检查以下内容：
  - 数据查询结果表是否命名为【users】
    （非常重要！如不一致后续大模型提示词会出错！）
  - - 数据查询结果表是否格式设置为【DataFrame】
      （非常重要！如不一致后续大模型提示词会出错！）

3、数据分析

背景知识：大模型提示词工程与python数据分析介绍
大模型通过自然语言到代码（如NL2Python）的转换技术，使用户无需编程即可高效完成Python数据分析；DataV Note通过对话式交互自动生成数据查询与可视化，显著降低技术门槛。
提示词工程（Prompt Engineering）是通过设计和优化提示词（Prompt）来引导大语言模型（LLM）生成符合预期输出的技术，是通过自然语言到代码进行python数据分析的核心技能之一，其核心在于将用户需求转化为大模型可理解的指令，从而提升python数据分析代码输出的准确性、相关性和可控性。
提示词工程（Prompt Engineering）关键要素及其重要性：
- 角色定义：为模型分配身份或视角（如“资深python数据分析师”），影响输出的语气、专业性和知识范围。例如，明确角色可使模型输出更贴合特定数据分析需求，减少歧义。
- 任务描述：明确指令的核心目标（如“对观众评论数量最多的十部电影进行排序输出”），确保模型聚焦于具体任务，避免偏离方向。清晰的任务描述能显著提升输出的针对性。
- 数据输入/输出：通过上下文、示例和输出指示控制输入信息和输出格式。例如，提供数据输入的变量名称，而输出指定数据变量名称，方便下一步做图表可视化操作。
- 约束条件：通过角色、任务、上下文等要素隐含或显式设定约束（如字禁止修改原始输入数据等），降低模型“胡说八道”的风险，增强输出的一致性。

分析最受女性欢迎的十大热门电影

参考大模型提示词：

### 角色  
你是一位Python数据分析专家，擅长高效处理大规模时序数据。  

### 任务  
根据电影评价数据，要求最受女性欢迎的10部电影：  
* 同一部电影，女性观众的评价数量越多则被认为越受欢迎；
* 找出最受女性欢迎的10部电影，按降序排序

### 输入数据  
* 原始数据为rates（电影评分数据）、movie（电影名称数据）、users（用户数据）
* 不允许修改原始数据，可以复制原始数据进行分析

### 输出要求  
* 输出最受女性欢迎的10部电影
* 输出结果包含电影名称、女性评分人数
* 输出结果存储在名为popular_female_df的dataframe

### 约束  
* 禁止修改原始数据rates（电影评分数据）、movie（电影名称数据）、users（用户数据）
* 输出结果存储在名为popular_female_df的dataframe

点击下方工具栏【python】按钮
在新增的python代码框右上角，点击【AI助手】
将大模型提示词复制后粘贴到AI助手输入框中，并点击输入框右侧按钮
大模型生成python数据分析代码之后，点击代码框右上角【添加到当前单元】
添加代码到编辑框后，点击编辑框右上角的【运行】
运行代码之后，可以看到分析结果已经出现
在输出的结果数据【popular_female_df】数据标签上点击右侧按钮，在弹出的菜单中选择【在图表中可视化】
在图表类型中，选择适合的图表形式，例如【词云】
点击【更多配置】，修改标题等图表选项
修改完后，点击左上角返回数据分析界面

分析最受青少年欢迎的电影类型

参考大模型提示词：

### 角色  
你是一位Python数据分析专家，擅长高效处理大规模时序数据。  

### 任务  
根据电影评价数据，要求最受青少年欢迎的5大电影类型：  
* 年龄小于18岁的观众定义为青少年；
* 把同一类型的电影的评价数量汇总，得到该电影类型的欢迎程度；
* 找出最受青少年欢迎的5个电影类型，按评价数量降序排序输出；


### 输入数据  
* 原始数据rates（观众评分数据）、movie（电影名称数据）、users（观众信息数据）
* 不允许修改原始数据，可以复制原始数据进行分析

### 输出要求  
* 输出最受青少年欢迎的5个电影类型，按评价数量降序排序输出
* 输出结果包含电影类型、青少年评分人数
* 输出结果存储在名为popular_kids_df的dataframe

### 约束  
* 禁止修改原始数据rates（观众评分数据）、movie（电影名称数据）、users（观众信息数据）
* 输出结果存储在名为popular_kids_df的dataframe

按之前步骤类似，在下方工具栏新建一个python窗口
打开【AI助手】，将大模型提示词贴入对话框
大模型生成python数据分析代码之后，点击代码框右上角【添加到当前单元】
添加代码到编辑框后，点击编辑框右上角的【运行】
运行代码之后，可以看到分析结果已经出现
在输出的结果数据【popular_kids_df】数据标签上点击右侧按钮，在弹出的菜单中选择【在图表中可视化】
对图表进行设置，展示数据分析结果
更多数据分析，可以按上述步骤进行探索！