苏格拉底有话说

2020-07-24 17:22 已编辑浙江工业大学数据分析师

关注

<span>中国大学排名定向爬虫</span>

本篇爬虫主要是为了从最好大学网站上爬取2019年各个大学的排名，以及把数据存储到mysql的过程：

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4 import pymysql
 5 
 6 # 连接数据库并且创建数据表
 7 db = pymysql.connect('localhost', 'root', 'password', 'universityrankings')
 8 cursor = db.cursor()
 9 cursor.execute('drop table if exists UNRANKING2019')
10 sql = """
11 create table UNRANKING2019
12 (
13 paiming INTEGER,
14 xuexiaomingchen VARCHAR(40),
15 shengshi VARCHAR(40),
16 zongfen VARCHAR(40),
17 shengyuanzhiliang VARCHAR(40),
18 peiyangjieguo VARCHAR(40),
19 shehuishengyu VARCHAR(40),
20 keyanguimo VARCHAR(40),
21 keyanzhiliang VARCHAR(40),
22 dingjianchengguo VARCHAR(40),
23 dingjianrencai VARCHAR(40),
24 kejifuwu VARCHAR(40),
25 chengguozhuanhua VARCHAR(40),
26 xueshengguojihua VARCHAR(40),
27 primary key(xuexiaomingchen)
28 );
29 """
30 cursor.execute(sql)
31 
32 
33 def getHTMLText(url):
34     try:
35         r = requests.get(url, timeout=30)
36         r.raise_for_status()
37         r.encoding = r.apparent_encoding
38         return r.text
39     except:
40         return ""
41 
42 
43 def fillUnivlist(ulist, html):
44     soup = BeautifulSoup(html, "html.parser")
45     for tr in soup.find('tbody').children:
46         if isinstance(tr, bs4.element.Tag):
47             tds = tr.find_all('td')
48             ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string, tds[4].string, tds[5].string,
49                           tds[6].string, tds[7].string, tds[8].string, tds[9].string, tds[10].string, tds[11].string,
50                           tds[12].string, tds[13].string])
51     sql = """
52         INSERT INTO universityrankings.unranking2019 values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
53         """
54     for i in range(len(ulist)):
55         cursor.execute(sql, ulist[i])
56     db.commit()
57     cursor.close()
58 
59 
60 def printUnivList(ulist, num):
61     tplt = "{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}\t{8}\t{9}\t{10}\t{11}\t{12}\t{13}"
62     print(tplt.format("排名", "学校名称", "省市", "总分", "生源质量", "培养结果", "社会声誉", "科研规模", "科研质量", "顶尖成果", "顶尖人才", "科技服务", "成果转化",
63                       "学生国际化"))
64     for i in range(num):
65         u = ulist[i]
66         print(tplt.format(u[0], u[1], u[2], u[3], u[4], u[5], u[6], u[7], u[8], u[9], u[10], u[11], u[12], u[13]))
67 
68 
69 def main():
70     uinfo = []
71     url = 'http://www.zuihaodaxue.com/zuihaodaxuepaiming2019.html'
72     html = getHTMLText(url)
73     fillUnivlist(uinfo, html)
74     printUnivList(uinfo, 549)
75 
76 
77 main()

全部评论

推荐最新楼层

02-08 18:31

蚌埠坦克学院嵌入式软件开发

面对AI一定要谨慎

在人工智能越来越普及的今天，我逐渐意识到，面对AI一定要保持谨慎。AI确实能快速提供答案，帮助我查资料、写文章、解决问题，但它并不是万能的，也并不总是正确的。我发现，有时候AI会“随便回答”。当问题不够清晰，或者涉及复杂、专业的内容时，AI可能只是根据已有的数据进行推测，生成看起来合理却不一定准确的答案。如果我不加思考地相信这些内容，就可能被误导，甚至在学习或工作中做出错误判断。因此，我开始把AI当作一个辅助工具，而不是绝对权威。遇到重要信息时，我会主动查证，多看不同来源的资料，再做决定。AI可以提供参考和灵感，但最终的判断和选择，仍然需要我自己负责。对我来说，谨慎使用AI，不盲目依赖，是在这...

为了减少AI幻觉，你注入...

点赞评论收藏

分享

02-05 19:57

南昌大学全栈开发

题解 | 使用最小花费爬楼梯

题干分析 题设给定一个爬楼花费数组，记录每到一个台阶需要再向上爬所需的花费。要求我们求解从下标0或者1开始爬楼到达楼顶所需最小花费。 算法思路 基本的线性DP问题。根据题设我们可以假设初始我们从下标-1处出发，到下标0或者下标1，此次出发无花费。因此设数组表示到达下标为i的台阶所需花费，初始条件为：  我们的目标是到达楼顶，即求。 我们将总目标进行拆分：由于到达下下标为n的台阶只可能是从下标n-1的台阶上花费cost[n-1]上来，或者从下标n-2上花费cost[n-2]上来，我们取其中的最小值，由此DP状态转移方程为：  同时我们不难观测到整个DP状态转移过程只涉及相邻的三个DP状态，完全可...

点赞评论收藏

分享

2025-12-18 19:36

已编辑

门头沟学院 Java

28小登初闯实习，简历求拷打

目前0实习，想年后找一个，求拷打简历

程序员牛肉：可以的，简历没毛病了。虽然还是偏向同质化，不过学历不错。后续我觉得重心放到刷实习+摆脱同质化问题上

实习简历求拷打

点赞评论收藏

分享

01-20 16:20

郑州升达经贸管理学院 Java

求助，今年大四，之前没有过实习，简历投出去都说不合适

离上岸不远了的海螺：线程不是县城

实习，投递多份简历没人回...

点赞评论收藏

分享

02-09 11:24

上海智元新创技术有限公司_产品经理(准入职员工)

智元机器人内推，智元机器人内推码

来到智元快一个月了，更新一下实习体验 1.地理位置：智元上海总部在康桥，离上海迪士尼很近，但是属于郊区，到外滩坐地铁要一个小时 2.周围物价：公司楼下的商务区饭菜是上海水准，平均一餐25左右，牛肉面28。但是！距离500m左右的秀沿路上有大大小小几十家餐馆，木桶饭，张亮麻辣烫，灌汤包，麦当劳，塔斯丁，鸡公煲，烧烤店，好吃的不要太多！而且物价很便宜，和重庆类似，平均一餐15—20，团购的至尊烤鸡才19元，赚麻了 3.租房：（更新）康桥区的租房真的有点乱，我被骗了2000，当时是贝壳上找到的房源，到了现场说他是房东，拿出了他自己搞的虚假合同，里面有2000的一年的物业费，可以退，我微信转账给了他。...

三奇智元机器人科技有限公司公司福利 94人发布

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招什么时候投？ #

3472次浏览 56人参与

# 春节提前走，你用什么理由请假？ #

4140次浏览 77人参与

# 春节前，你还在投简历吗？ #

5700次浏览 63人参与

# 实习到现在，你最困惑的一个问题 #

1328次浏览 39人参与

# 牛友的春节生活 #

1015次浏览 29人参与

# 备战春招/暑实，现在应该做什么？ #

1224次浏览 42人参与

# 从夯到拉，锐评职场mentor #

1162次浏览 24人参与

# 聊聊Agent开发 #

12104次浏览 298人参与

# 距离春招还有一个月，你现在是什么开局？ #

2549次浏览 48人参与

# 推荐一个值得做的AI项目 #

3287次浏览 98人参与

# 实习想申请秋招offer，能不能argue薪资 #

218429次浏览 1171人参与

# 暑期实习什么时候投？ #

3072次浏览 69人参与

# 通信硬件2024笔试面试经验 #

269039次浏览 2053人参与

# 实习必须要去大厂吗？ #

188394次浏览 1765人参与

# 双非本科的出路是什么？ #

208537次浏览 1565人参与

# 最难的技术面是哪家公司？ #

65352次浏览 971人参与

# 机械/制造每日一题 #

86589次浏览 1445人参与

# 一份好的简历长什么样？ #

25407次浏览 448人参与

# 我想象的实习vs现实的实习 #

320888次浏览 2287人参与

# 机械人面试中的常问题 #

237522次浏览 3521人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务