编写Naïve Bayes分类模型对邮件文本进行分类,判断该邮件是不是垃圾邮件(二分类)。我们已经通过数据预处理,将原始的邮件文本数据转化为分类器可用的数据向量形式,具体:数据表示为整型数向量x=(x1,x2,…,xd)。d是数据特征向量的维数,每个输入数据样本的格式为: Label x1 x2 … xd 其中Label为0或者1的整型数字(0表示正常邮件,1表示垃圾邮件); x1 x2 … xd是离散化后的特征,表示为从0开始的自然数; 维度d小于20; 如果Label=?,则表示希望输出的预测类别值(需要预测的类别一定已在对应的训练数据中已经出现过)。
输入描述:
输入格式如下:第一行三个数字M N d,M是训练集的大小,N是测试集的大小,d是数据维数。接下来是M行训练数据样本,然后是N行需要预测的样本。
输出描述:
期望的输出:每条待预测样本的标签
示例1
输入
4 2 3
1 13 0 10
0 6 11 2
1 17 2 14
0 8 16 13
? 20 3 19
? 2 13 18
加载中...