sklearn解决kaggle的titanic问题

1,代码如下:

# titanic Solution

# 1,prepare data
import imp
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.fft import rfft
import seaborn as sns
from IPython.display import Image
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_val_score, train_test_split
# model
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
# 评估
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

data = pd.read_csv('pandas_learn/data/clear_data.csv')
train = pd.read_csv('pandas_learn/data/train.csv')

X = data
y = train['Survived']


X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
# print(X_train.shape, X_test.shape)

# 2,Model Desgin
# 2.1,创建logisticregression模型,并用数据训练

# def __init__(self, penalty='l2', dual=False, tol=1e-4, C=1.0,
#     fit_intercept=True, intercept_scaling=1, class_weight=None,
#     random_state=None, solver='lbfgs', max_iter=100,
#     multi_class='auto', verbose=0, warm_start=False, n_jobs=None,
#     l1_ratio=None):

# penalty:正则化参数,三种取值:{‘l1’, ‘l2’, ‘elasticnet’, ‘none’}, default=’l2’
# C:正则强度的倒数;必须为正浮点数。与支持向量机一样,较小的值指定更强的正则化。
# class_weight:样本权重,可以是一个字典或者’balanced’字符串,默认为None。对于二分类模型,可以这样指定权重:class_weight={0:0.9,1:0.1},当class_weight=‘balanced’,那么类库会根据训练样本量来计算权重。某种类型样本量越多,则权重越低,样本量越少,则权重越高。
# solver:优化算法选择参数,五种取值:newton-cg,lbfgs,liblinear,sag,saga。default = liblinear。
# liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。如果是L2正则化,那么4种可选的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话,就只能选择‘liblinear’了。
# max_iter: 算法收敛的最大迭代次数,即求取损失函数最小值的迭代次数,默认是100。

# lr = LogisticRegression().fit(X_train, y_train)
# print(lr.predict(X_test))
# print("训练集得分:{:.3f}".format(lr.score(X_train,y_train)))
# print("测试集得分:{:.3f}".format(lr.score(X_test,y_test)))

# 2.2,随机森林模型
# rf = RandomForestClassifier(n_estimators=100).fit(X_train, y_train)
# print(rf.predict(X_test))
# print("训练集得分:{:.3f}".format(rf.score(X_train,y_train)))
# print("测试集得分:{:.3f}".format(rf.score(X_test,y_test)))

# 3 模型评估
# 3.1 交叉验证
# lr = LogisticRegression()
# print(cross_val_score(lr,X_train,y_train,cv = 10))

# 3.2 混淆矩阵
lr = LogisticRegression().fit(X_train, y_train)
# y_pred = lr.predict(X_train)
# print(y_pred.sum())
# print(confusion_matrix(y_train,y_pred,labels=[0,1]))
# print(classification_report(y_train,y_pred))

fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)
plt.show()
全部评论

相关推荐

11-28 16:00
已编辑
武汉理工大学 Java
想干测开的tomca...:这份简历是“短期项目硬堆中大型系统技术”的“技术炫技式造假模板”,槽点密集到能当反面教材: ### 1. 「项目时长」和「技术密度」严重脱节,造假痕迹焊死在简历上 两个项目时长分别是**3个月、2个月**,但堆了Spring AI、Elasticsearch、MinIO、Kafka、ShardingSphere、Docker、Sentinel等近20个中大型项目才用的技术——正常情况下,光把这些中间件的文档看完+环境搭好,3个月都不够,更别说实现“AI多轮对话、分库分表、RBAC权限、大模型调用”这些功能。 说白了:你这不是“做项目”,是把“后端技术栈清单”往项目里硬塞,明摆着“只调用了API,没碰过核心逻辑”。
点赞 评论 收藏
分享
想干测开的tomca...:让我来压力你!!!: 这份简历看着“技术词堆得满”,实则是“虚胖没干货”,槽点一抓一大把: 1. **项目描述是“技术名词报菜名”,没半分自己的实际价值** 不管是IntelliDoc还是人人探店,全是堆Redis、Elasticsearch、RAG这些时髦词,但你到底干了啥?“基于Redis Bitmap管理分片”是你写了核心逻辑还是只调用了API?“QPS提升至1500”是你独立压测优化的,还是团队成果你蹭着写?全程没“我负责XX模块”“解决了XX具体问题”,纯把技术文档里的术语扒下来凑字数,看着像“知道名词但没实际动手”的实习生抄的。 2. **短项目塞满超纲技术点,可信度直接***** IntelliDoc就干了5个月,又是RAG又是大模型流式响应又是RBAC权限,这堆活儿正经团队分工干都得小半年,你一个后端开发5个月能吃透这么多?明显是把能想到的技术全往里面塞,生怕别人知道你实际只做了个文件上传——这种“技术堆砌式造假”,面试官一眼就能看出水分。 3. **技能栏是“模糊词混子集合”,没半点硬核度** “熟悉HashMap底层”“了解JVM内存模型”——“熟悉”是能手写扩容逻辑?“了解”是能排查GC问题?全是模棱两可的词,既没对应项目里的实践,也没体现深度,等于白写;项目里用了Elasticsearch的KNN检索,技能栏里提都没提具体掌握程度,明显是“用过但不懂”的硬凑。 4. **教育背景和自我评价全是“无效信息垃圾”** GPA前10%这么好的牌,只列“Java程序设计”这种基础课,分布式、微服务这些后端核心课提都不提,白瞎了专业优势;自我评价那堆“积极认真、细心负责”,是从招聘网站抄的模板吧?没有任何和项目挂钩的具体事例,比如“解决过XX bug”“优化过XX性能”,纯废话,看完等于没看。 总结:这简历是“技术名词缝合怪+自我感动式凑数”,看着像“背了后端技术栈名词的应届生”,实则没干货、没重点、没可信度——面试官扫30秒就会丢一边,因为连“你能干嘛”都没说清楚。
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务