数据处理实践题,求解答
请使用ml-1m数据集(内含users.dat,movies.dat,ratings.dat三个数据文件,stop_words_list.txt是停用词表,README是对数据的说明),完成以下数据预处理:
(1).拼接三个数据文件,拼接后的数据包括UserID::MovieID::Rating::Timestamp::Gender::Age::Occupation::Zip-code::Title::Genres列;
(2).对Gender、Occupation列进行one-hot编码;
(3).从Title列中读出年份作为新的列,接着全部转换为小写字母并去掉停用词和标点符号,然后保留前四个词,不足四个词的用“null_word”补齐,将四个词分成四列,即Title一列变换为Year、FirstWord、SecondWord、ThirdWord、FourthWord五列;
(4).对Genres列,保留前三个类别(每个类别是|隔开的),不足三个类别的用“null_genre”补齐,将三个类别分成三列,即Genres一列变换为FirstGenre、SecondGenre、ThirdGenre三列;
(5).最后将数据导出为.csv文件,命名为ml1m.csv,与源代码一起打包提交。
#腾讯开发笔试题求解答呀#
