使用sqlite3存储奥斯卡金像奖提名信息

SQLite3 可使用 sqlite3 模块与 Python 进行集成。sqlite3 模块是由 Gerhard Haring 编写的。它提供了一个与 PEP 249 描述的 DB-API 2.0 规范兼容的 SQL 接口。您不需要单独安装该模块,因为 Python 2.5.x 以上版本默认自带了该模块。SQLite - Python | 菜鸟教程**

所用数据集为奥斯卡金像奖数据(Academy Awards nominations),下载地址:Complete List of Oscar Nominees and Winners**

导入数据:

import pandas as pd
awards=pd.read_csv('./data/academy_awards.csv',encoding='ISO-8859-1')
print(awards.info())
print(awards.head())
# print(awards['Unnamed: 5'].value_counts()) 查看是否含有有价值的信息
# print(awards['Unnamed: 6'].value_counts())
# print(awards['Unnamed: 7'].value_counts())
# print(awards['Unnamed: 8'].value_counts()

数据信息:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10137 entries, 0 to 10136
Data columns (total 11 columns):
Year 10137 non-null object
Category 10137 non-null object
Nominee 10137 non-null object
Additional Info 9011 non-null object
Won? 10137 non-null object
Unnamed: 5 11 non-null object
Unnamed: 6 12 non-null object
Unnamed: 7 3 non-null object
Unnamed: 8 2 non-null object
Unnamed: 9 1 non-null object
Unnamed: 10 1 non-null objectdtypes: object(11)
memory usage: 871.2+ KB
  1. 数据清洗
    通过结果可以看到,Year属性列为字符串型,格式比较乱。首先对'Year'属性进行格式化
#Clean 'Year' column then convert its datatype
awards['Year']=awards['Year'].str[0:4]
awards['Year']=awards['Year'].astype(int)
print(awards['Year'].dtype)

因为sqlite数据库中以integer代替boolean类型,所以我们需要将'Won?'列由boolean转换为integer:

#Clean 'Wons' column
nonominations['Won']=nominations['Won?'].map({'YES':1,'NO':0})
final_nominations=nominations.drop(['Won?','Unnamed: 5','Unnamed: 6','Unnamed: 7','Unnamed: 8','Unnamed: 9','Unnamed: 10'],axis=1)
print(final_nominations.head())

为方便操作,格式化完以后提取2000年以后的数据,且只提取奖项类别为award_categories中类别的数据行:

#Filter datasetlater_than_2000=awards[awards['Year']>2000]
award_categories=['Actor -- Leading Role','Actor -- Supporting Role','Actress -- Leading Role','Actress -- Supporting Role']
nominations=later_than_2000[later_than_2000['Category'].isin(award_categories)]
print(nominations[:10])

为了将Additional Info列存入数据库,可以将该列进行分割操作:

#Split 'Additional info' columnadditional_info_one=final_nominations['Additional Info'].str.rstrip("'}")
additional_info_two=additional_info_one.str.split("{'")
final_nominations['Movie']=additional_info_two.str[0]
final_nominations['Character']=additional_info_two.str[1]
final_nominations=final_nominations.drop('Additional Info',axis=1)
final_nominations.head()
  1. 使用sqlite3将DataFrame中的信息存入到sqlite中import
sqlite3 conn=sqlite3.connect('./data/nominations.db')
final_nominations.to_sql('nominations',conn,index=False)
result=conn.execute("pragma table_info(nominations);").fetchall()
print(result)
conn.close()

为了验证是否存储成功,可以在终端进行验证:


全部评论

相关推荐

bg:双非本,一段中小厂6个月测开实习今天发这个帖子主要是想聊一聊我秋招以来的一个发展我是在8月底辞职,打算秋招,可是看网上都说金九银十就想着自己就是一个普通本科生,现在九月份都是一些大神在争抢,所以9月份基本上没投,等到了10月份才开始秋招,可是这个时间好像已经有些晚了,今年秋招开启的格外早,提前到了7,8月份,我十月才开始,官网投了很多公司,没有任何一个面试机会,这个情况一直到了十月底才有了第一个面试,当时没有面试经验,所以不出意外的挂了后续就是漫长的投递,但是毫无例外没有面试,没有办法我只能另辟蹊径开始在BOSS上边投递,然后顺便也根据BOSS上边这个公司名称去浏览器搜索看看有没有官网投递渠道,毕竟官网上投递后还是可以第一时间被HR看到的,然后一直不停投递,一开始第一个星期基本上都是投的正式秋招岗位到了第二个星期才开始实习和正式一起投,到十一月底的时候已经沟通了700➕才有一共1个正式的,5个要提前实习的,3个实习的面试,最后结果是过了1个要提前实习的和2个实习的每次面试我都会复盘,发现这些小公司面试官问的五花八门,有的专问基础,有的专问项目,有的啥都问,不过自己也是看出来了一下门道,就是小公司不像大公司面试官那样能力比较强基本上你简历上边的他都会,然后会根据简历来问,小公司面试官他们更多的是看自己会什么,然后看看你简历上边哪些他也是会的然后来问,经过不断的复盘加上背各种各样面试题,到了11月底12月初才有了1个要提前实习的offer还有2个实习的offer,而且薪资待遇对我来说已经很可观了可是啊,人总是这样得了千钱想万钱,我又开始不满现状,但是此时的我面试能力经过这么多面试和复盘已经很强了,然后在十二月份运气爆棚,被极兔和小鹏补录捞起来面试,还有个百度测开的实习面试,这个时候因为有了offer所以感觉有了底气,面试也很自信,最后结果是全部都过了那个时候我感觉自己真的很厉害,我问了极兔那边的HR像我这样的双非本收到offer的在极兔有多少?他告诉我产研岗90%都是硕士,10%里边基本上都是211,985,想我这样的很少很少,那一刻感觉自己超级牛逼,小鹏就更不用说了,最后也是不出意外选择了小鹏所以我就我个人经历想对和我学历履历差不多的牛友一些建议第一:秋招一定要趁早,真到了9,10月,那个时候可能你投的结果可能还不如7,8,11月,第二:最好先拿小公司实习或者正式练练手,提升一下面试能力,我个人觉得因为小公司问的五花八门所以你会更加横向去提升自己能力,而且大公司其实面试没有那么难,除了一些非常卷的岗位,公司大神比较多会问的很难,一般好点的公司都不会问的那么难,他们也知道都是应届生不会要求那么高第三:当有一定能力后,就是坚持了,对于我们这样的学历,没有特别强的履历情况下,就是要抓住提前批和补录的机会,这个时候各方面不会卡的很严,是我们很好很好的一个机会第四:就是运气也是很重要的一部分,不过这个很难去说什么最后祝各位牛友都能收获自己满意的offer😁😁😁
秋招,不懂就问
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务