导航:首页 > 电影资讯 > 豆瓣电影排行python

豆瓣电影排行python

发布时间:2024-02-06 21:16:48

豆瓣高分电影排行榜(经典精选100部豆瓣评分排行)

豆瓣高分电影排行榜(经典精选100部豆瓣评分排行)。要知道豆瓣评分排行榜,代表了大多数影友的喜好。而这些电影大多数都是影史中的经典作品,因此,每一部电影都是值得收藏和观看的,今天昕薇网小编在此精心整理了豆瓣高分电影排行榜100部电影,希望大家收藏慢慢观看。

1
nbsp;豆瓣高分电影1-50部
nbsp;1、《肖申克的救赎》(豆瓣评分分)
2、《霸王别姬》(豆瓣评分分)
3、《这个杀手不太冷》(豆瓣评分分)
4、《阿甘正传》(豆瓣评分分)
5、《美丽人生》(豆瓣评分分)
6、《千与千寻》(豆瓣评分分)
7、《泰坦尼克号》(豆瓣评分分)
8、《辛德勒名单》(豆瓣评分分)
9、《盗梦空间》(豆瓣评分分)
10、《机器人总动员》(豆瓣评分分)
11、《海上钢琴师》(豆瓣评分分)
12、《三傻大闹宝莱坞》(豆瓣评分分)
13、《忠犬八公的故事》(豆瓣评分分)
14、《放牛班的春天》(豆瓣评分分)
15、《大话西游之大圣娶亲》(豆瓣评分分)
16、《教父》(豆瓣评分分)
17、《龙猫》(豆瓣评分分)
18、《楚门的世界》(豆瓣评分分)
19、《乱世佳人》(豆瓣评分分)
20、《熔炉》(豆瓣评分分)
21、《触不可及》(豆瓣评分分)
22、《天堂电影院》(豆瓣评分分)
23、《当幸福来敲门》(豆瓣评分分)
24、《星际穿越》(豆瓣评分分)
25、《无间道》(豆瓣评分分)
26、《怦然心动》(豆瓣评分分)
27、《十二怒汉》(豆瓣评分分)
28、《搏击俱乐部》(豆瓣评分分)
29、《少年派的奇幻漂流》(豆瓣评分分)
30、《指环王3:王者无敌》(豆瓣评分分)
31、《鬼子来了》(豆瓣评分分)
32、《蝙蝠侠:黑暗骑士》(豆瓣评分分)
33、《活着》(豆瓣评分分)
34、《天空之城》(豆瓣评分分)
35、《罗马假日》(豆瓣评分分)
36、《大话西游之月光宝盒》(豆瓣评分分)
37、《飞屋环游记》(豆瓣评分分)
38、《两杆大烟枪》(豆瓣评分分)
39、《窃听风暴》(豆瓣评分分)
40、《飞越疯人院》(豆瓣评分分)
41、《疯狂动物城》(豆瓣评分分)
42、《控方证人》(豆瓣评分分)
43、《闻香识女人》(豆瓣评分分)
44、《海豚湾》(豆瓣评分分)
45、《哈尔的移动城堡》(豆瓣评分分)
46、《V字仇杀队》(豆瓣评分分)
47、《教父2》(豆瓣评分分)
48、《辩护人》(豆瓣评分分)
49、《死亡诗社》(豆瓣评分分)
50、《美丽心灵》(豆瓣评分分)
精选推荐:
强推6部豆瓣评分以上的电影
;
豆瓣高分电影电视剧有哪些
;
十大欧美大尺度电影排行
;
豆瓣评分以上电影神作
;
12部美国电影推荐豆瓣高分

2
豆瓣高分电影51-100部

51、《肖申克的救赎》1994
52、《霸王别姬》1993
53、《阿甘正传》1994
54、《这个杀手不太冷》1994
55、《泰坦尼克号》1997
56、《美丽人生》1997
57、《千与千寻》2001
58、《辛德勒的名单》1993
59、《盗梦空间》2010
60、《忠犬八公的故事》2009
61、《星际穿越》2014
62、《楚门的世界》1998
63、《海上钢琴师》1998
64、《三傻大闹宝莱坞》2009
65、《机器人总动员》2008
66、《放牛班的春天》2004
67、《无间道》2002
68、《疯狂动物城》2016
69、《大话西游之大圣娶亲》1995
70、《熔炉》2011
71、《教父》1972
72、《当幸福来敲门》2006
73、《龙猫》1998
74、《怦然心动》2010
75、《控方证人》1957
76、《触不可及》2011
77、《末代皇帝》1987
78、《蝙蝠侠:黑暗骑士》2008
79、《寻梦环游记》2017
80、《活着》1994
81、《指环王3:王者无敌》2003
82、《乱世佳人》1939
83、《哈利·波特与魔法石》2001
84、《何以为家》2018
85、《飞屋环游记》2009
86、《素媛》2013
87、《摔跤吧!爸爸》2016
88、《十二怒汉》1957
89、《少年派的奇幻漂流》2012
90、《哈尔的移动城堡》2004
91、《鬼子来了》2000
92、《我不是药神》2018
93、《大话西游之月光宝盒》1995
94、《天空之城》1986
95、《天堂电影院》1998
96、《闻香识女人》
97、《指环王2:双塔奇兵》
98、《罗马假日》
99、《猫鼠游戏》
100、《辩护人》2013

② 豆瓣电影数据分析

这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。
即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;

本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。

另外,本篇报告还爬取了电影票房网( http://58921.com/ )1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。

清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:

结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。

结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。

这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。

进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:

对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。

根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。

进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:

接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。

再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。

分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。

可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。

除此之外,还有两块区域值得关注:

根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。

前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。

对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。

在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。

结合电影票房网( http://58921.com/ )采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。

如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。

对电影数据根据类型进行聚合,绘制散点图21,可以发现:

提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。

最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。

本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:

③ python怎么抓取豆瓣电影url

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣电影TOP250 - 完整示例代码
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'httn.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()0414243444546474849505152

简单说明下,在目录下会生成一个文档存放电影名。python2

④ python爬虫抓取电影top20排名怎么写

初步接触python爬虫(其实python也是才起步),发现一段代码研究了一下,觉得还比较有用处,Mark下。
上代码:

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender:cy"""
一个简单的Python爬虫, 用于抓取豆瓣电影Top前100的电影的名称
Anthor: Andrew_liu
mender:cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""类的简要说明
主要用于抓取豆瓣Top100的电影名称

Attributes:
page: 用于表示当前所处的抓取页面
cur_url: 用于表示当前争取抓取页面的url
datas: 存储处理好的抓取到的电影名称
_top_num: 用于记录当前的top号码
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣电影爬虫准备就绪, 准备爬取数据..."

def get_page(self, cur_page):
"""
根据当前页码爬取网页HTML
Args:
cur_page: 表示当前所抓取的网站页码
Returns:
返回抓取到整个页面的HTML(unicode编码)
Raises:
URLError:url引发的异常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通过返回的整个网页HTML, 正则匹配前100的电影名称

Args:
my_page: 传入页面的HTML文本用于正则匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬虫入口, 并控制爬虫抓取页面的范围
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一个简单的豆瓣电影前100爬虫
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬虫爬取完成"if __name__ == '__main__':
main()

运行结果:

⑤ .利用python获得豆瓣电影前30部电影的中文片名,排名,导演,主演,上映时间

热门频道

首页

博客

研修院

VIP

APP

问答

下载

社区

推荐频道

活动

招聘

专题

打开CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打开APP

python 网络爬虫 1.2 获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分,将数据存入文档。 原创
2021-07-19 01:03:15
2点赞

zynaln

码龄8年

关注
题目:
获取豆瓣TOP250电影的中英文名、港台名、导演、上映年份、电影分类以及评分,将数据存入文档。
代码:

输出结果:

文章知识点与官方知识档案匹配
Python入门技能树网络爬虫urllib
201761 人正在系统学习中
打开CSDN APP,看更多技术内容

最新发布 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)
继续访问

python
写评论

7

14

2



分享

⑥ Python爬虫实战(1)requests爬取豆瓣电影TOP250

爬取时间:2020/11/25
系统环境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的库:requestslxmlpandasmatplotlib umpy

蛋肥想法: 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法: print数据列表后发现电影原名、分类信息等存在不需要的字符,需预先处理;同时因为后续想做一个豆瓣电影TOP250的维度分布图,而同一电影存在多个发行国家、类型(如“法国 美国 / 剧情 动作 犯罪”),为了简(偷)便(懒),这里均取第一个作为记入的数据;最后将数据保存为xlsx。

蛋肥想法: 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据,为了练手,使用刚才保存成xlsx的数据,并分别画成雷达图、柱形图、扇形图。

⑦ python爬虫小白求帮助:爬取豆瓣网的内容 不知道哪里出问题了 只能print一行

只获取到一个movie_name 和 一个movies_score,然后遍历这两个值,循环一定是只走两遍。不知道你这个是不是豆瓣top250 我看页面元素好像不对了

阅读全文

与豆瓣电影排行python相关的资料

热点内容
荣浩电影院 浏览:747
德州新世纪电影城电影时间 浏览:388
日本学霸级别的电影 浏览:163
美国电影狱警罪犯 浏览:502
上司的老婆韩国电影 浏览:655
电影史经典慢动作 浏览:551
日本限极电影在线看 浏览:406
2018年元旦有什么好看的电影 浏览:256
遂宁双发电影城图片 浏览:948
2018年卡通电影5月份 浏览:31
蒋明浩导演的电影 浏览:343
裴勇俊有哪些电影作品 浏览:866
美国与俄罗斯海底大战的电影叫什么意思 浏览:16
日本电影美国 浏览:528
周星驰最感动人的电影 浏览:332
电影大坏狼剧情 浏览:518
播放二零二一年国外恐怖电影 浏览:361
好看搞笑的电影推荐腾讯 浏览:926
有没有好电影推荐 浏览:170
福州横店电影城影讯 浏览:823