全部产品

步骤二:准备实验数据

更新时间:2017-06-07 13:26:11   分享:   

操作如下:

  1. 下载实验数据
  2. 解压数据

1. 下载实验数据

本实验将会使用公开数据集 MovieLens (ml-100k)作为数据源,该数据集可以通过网页http://grouplens.org/datasets/movielens/?spm=5176.docshujia/RE/startup/re-startup-pre1.2.5.ekLsL3 下载。

2. 解压数据

下载完成后解压缩,目录中会有多个文件,其中我们实验中会用到以下几个数据文件:

  1. u.user:用户信息
  2. u.item:电影信息
  3. u.data:用户对电影的评分信息

具体的表结构如下:

用户表 users:

字段名 字段含义
User_id 用户标识,数值型,唯一标识一个用户
Age 年龄,数值型
Gender 性别,字符串型,M:男,F:女
Occupation 职业,字符串型,如student,artist等
Zip_code 邮编,字符串型,用户邮寄地址的邮编

电影信息表 movies:

字段名 字段含义
movie_id 电影标识,唯一标识一部电影
movie_title 电影名字
release_date 上映日期
video_release_date VCD发行日期
IMDb_URL 在IMDB中的链接地址
Unknown 电影类型为“未知”,1:是 0:否
Action 电影类型为“动作片”,1:是 0:否
Adventure 电影类型为“探险片”,1:是 0:否
Animation 电影类型为“动画片”,1:是 0:否
Childrens 电影类型为“儿童片”,1:是 0:否
Comedy 电影类型为“喜剧片”,1:是 0:否
Crime 电影类型为“犯罪片”,1:是 0:否
Documentary 电影类型为“纪录片”,1:是 0:否
Drama 电影类型为“喜剧片”,1:是 0:否
Fantasy 电影类型为“幻想片”,1:是 0:否
Film_Noir 电影类型为“黑色片”,1:是 0:否
Horror 电影类型为“恐怖片”,1:是 0:否
Musical 电影类型为“英语片”,1:是 0:否
Mystery 电影类型为“推理片”,1:是 0:否
Romance 电影类型为“爱情片”,1:是 0:否
Sci_Fi 电影类型为“科幻片”,1:是 0:否
Thriller 电影类型为“惊悚片”,1:是 0:否
War 电影类型为“战争片”,1:是 0:否
Western 电影类型为“西部片”,1:是 0:否

用户评分表 ratings:

字段名 字段含义
User_id 用户标识,数值型,唯一标识一个用户
Movie_id 电影标识,数值型,唯一标识一部电影
Rating 用户评分,数值型,从1-5,的整数
Timestamps 用户评分时间,数值型,Unix时间,即从1970/1/1开始的秒数
本文导读目录
本文导读目录
以上内容是否对您有帮助?