sklearn解决kaggle的titanic问题

1，代码如下：

# titanic Solution

# 1,prepare data
import imp
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.fft import rfft
import seaborn as sns
from IPython.display import Image
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_val_score, train_test_split
# model
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
# 评估
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

data = pd.read_csv('pandas_learn/data/clear_data.csv')
train = pd.read_csv('pandas_learn/data/train.csv')

X = data
y = train['Survived']


X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)
# print(X_train.shape, X_test.shape)

# 2,Model Desgin
# 2.1,创建logisticregression模型，并用数据训练

# def __init__(self, penalty='l2', dual=False, tol=1e-4, C=1.0,
#     fit_intercept=True, intercept_scaling=1, class_weight=None,
#     random_state=None, solver='lbfgs', max_iter=100,
#     multi_class='auto', verbose=0, warm_start=False, n_jobs=None,
#     l1_ratio=None):

# penalty：正则化参数，三种取值：{‘l1’, ‘l2’, ‘elasticnet’, ‘none’}, default=’l2’
# C：正则强度的倒数；必须为正浮点数。与支持向量机一样，较小的值指定更强的正则化。
# class_weight：样本权重，可以是一个字典或者’balanced’字符串，默认为None。对于二分类模型，可以这样指定权重：class_weight={0:0.9,1:0.1}，当class_weight=‘balanced’，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。
# solver：优化算法选择参数，五种取值：newton-cg,lbfgs,liblinear,sag,saga。default = liblinear。
# liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。如果是L2正则化，那么4种可选的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话，就只能选择‘liblinear’了。
# max_iter： 算法收敛的最大迭代次数，即求取损失函数最小值的迭代次数，默认是100。

# lr = LogisticRegression().fit(X_train, y_train)
# print(lr.predict(X_test))
# print("训练集得分：{:.3f}".format(lr.score(X_train,y_train)))
# print("测试集得分：{:.3f}".format(lr.score(X_test,y_test)))

# 2.2,随机森林模型
# rf = RandomForestClassifier(n_estimators=100).fit(X_train, y_train)
# print(rf.predict(X_test))
# print("训练集得分：{:.3f}".format(rf.score(X_train,y_train)))
# print("测试集得分：{:.3f}".format(rf.score(X_test,y_test)))

# 3 模型评估
# 3.1 交叉验证
# lr = LogisticRegression()
# print(cross_val_score(lr,X_train,y_train,cv = 10))

# 3.2 混淆矩阵
lr = LogisticRegression().fit(X_train, y_train)
# y_pred = lr.predict(X_train)
# print(y_pred.sum())
# print(confusion_matrix(y_train,y_pred,labels=[0,1]))
# print(classification_report(y_train,y_pred))

fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)
plt.show()

全部评论

推荐最新楼层

12-22 21:18

三环集团_后端开发工程师(准入职员工)

阿里云内推，阿里云内推码

阿里云暑期实习面经（阿里云C++二面面经）写面经攒人品。面试官先介绍了一下业务，然后让介绍了一下项目1.智能指针2.栈和堆的区别3.c++和c的不同4.用const的目的5.指针和数组的区别6.重载和重写的区别7.定义指针时要注意的问题8.c++内存分配9.new/delete和malloc/free的联系及区别10.c++是类型安全的语言吗（面试官提到了动态联编和静态联编）11.main函数前会有其他函数语句被执行吗12.虚函数实现13.tls握手14.手撕算法冒泡排序了解了一些密码学的相关知识，后面就属于聊天了。面试官依旧人很好，给予了很积极的反馈，说了一下笔试的问题，给了一些建议。---...

点赞评论收藏

12-19 23:57

已编辑

苏州大学材料研发工程师

Offer 帮选，好纠结！

双二材料硕也是在秋招尾声才有面试，目前有3个比较满意的，求各位佬帮忙看看！违约金华创1w，上汽1w，蔚来有口头意向还没发offer，很急急急！主包是湖北襄阳的，父母想让签华创，但是我感觉上限低且累。

晒一晒我的offer

点赞评论收藏

11-28 16:00

已编辑

武汉理工大学 Java

27届日常实习0面试，求指导

牛油们，我的简历是有什么问题吗，为什么我投了快300份一个面试都没有，全部要完简历就拒绝或者没下文了😭鼠鼠要玉玉了，都马上寒假了

想干测开的tomca...：这份简历是“短期项目硬堆中大型系统技术”的“技术炫技式造假模板”，槽点密集到能当反面教材： ### 1. 「项目时长」和「技术密度」严重脱节，造假痕迹焊死在简历上两个项目时长分别是**3个月、2个月**，但堆了Spring AI、Elasticsearch、MinIO、Kafka、ShardingSphere、Docker、Sentinel等近20个中大型项目才用的技术——正常情况下，光把这些中间件的文档看完+环境搭好，3个月都不够，更别说实现“AI多轮对话、分库分表、RBAC权限、大模型调用”这些功能。说白了：你这不是“做项目”，是把“后端技术栈清单”往项目里硬塞，明摆着“只调用了API，没碰过核心逻辑”。

点赞评论收藏

11-04 21:22

天津理工大学 Java

27届尝试实习

佬们给提点意见，12月份想找个日常实习

想干测开的tomca...：让我来压力你！！！：这份简历看着“技术词堆得满”，实则是“虚胖没干货”，槽点一抓一大把： 1. **项目描述是“技术名词报菜名”，没半分自己的实际价值** 不管是IntelliDoc还是人人探店，全是堆Redis、Elasticsearch、RAG这些时髦词，但你到底干了啥？“基于Redis Bitmap管理分片”是你写了核心逻辑还是只调用了API？“QPS提升至1500”是你独立压测优化的，还是团队成果你蹭着写？全程没“我负责XX模块”“解决了XX具体问题”，纯把技术文档里的术语扒下来凑字数，看着像“知道名词但没实际动手”的实习生抄的。 2. **短项目塞满超纲技术点，可信度直接***** IntelliDoc就干了5个月，又是RAG又是大模型流式响应又是RBAC权限，这堆活儿正经团队分工干都得小半年，你一个后端开发5个月能吃透这么多？明显是把能想到的技术全往里面塞，生怕别人知道你实际只做了个文件上传——这种“技术堆砌式造假”，面试官一眼就能看出水分。 3. **技能栏是“模糊词混子集合”，没半点硬核度** “熟悉HashMap底层”“了解JVM内存模型”——“熟悉”是能手写扩容逻辑？“了解”是能排查GC问题？全是模棱两可的词，既没对应项目里的实践，也没体现深度，等于白写；项目里用了Elasticsearch的KNN检索，技能栏里提都没提具体掌握程度，明显是“用过但不懂”的硬凑。 4. **教育背景和自我评价全是“无效信息垃圾”** GPA前10%这么好的牌，只列“Java程序设计”这种基础课，分布式、微服务这些后端核心课提都不提，白瞎了专业优势；自我评价那堆“积极认真、细心负责”，是从招聘网站抄的模板吧？没有任何和项目挂钩的具体事例，比如“解决过XX bug”“优化过XX性能”，纯废话，看完等于没看。总结：这简历是“技术名词缝合怪+自我感动式凑数”，看着像“背了后端技术栈名词的应届生”，实则没干货、没重点、没可信度——面试官扫30秒就会丢一边，因为连“你能干嘛”都没说清楚。

点赞评论收藏