導航:首頁 > 電影資訊 > 豆瓣電影排行python

豆瓣電影排行python

發布時間:2024-02-06 21:16:48

豆瓣高分電影排行榜(經典精選100部豆瓣評分排行)

豆瓣高分電影排行榜(經典精選100部豆瓣評分排行)。要知道豆瓣評分排行榜,代表了大多數影友的喜好。而這些電影大多數都是影史中的經典作品,因此,每一部電影都是值得收藏和觀看的,今天昕薇網小編在此精心整理了豆瓣高分電影排行榜100部電影,希望大家收藏慢慢觀看。

1
nbsp;豆瓣高分電影1-50部
nbsp;1、《肖申克的救贖》(豆瓣評分分)
2、《霸王別姬》(豆瓣評分分)
3、《這個殺手不太冷》(豆瓣評分分)
4、《阿甘正傳》(豆瓣評分分)
5、《美麗人生》(豆瓣評分分)
6、《千與千尋》(豆瓣評分分)
7、《泰坦尼克號》(豆瓣評分分)
8、《辛德勒名單》(豆瓣評分分)
9、《盜夢空間》(豆瓣評分分)
10、《機器人總動員》(豆瓣評分分)
11、《海上鋼琴師》(豆瓣評分分)
12、《三傻大鬧寶萊塢》(豆瓣評分分)
13、《忠犬八公的故事》(豆瓣評分分)
14、《放牛班的春天》(豆瓣評分分)
15、《大話西遊之大聖娶親》(豆瓣評分分)
16、《教父》(豆瓣評分分)
17、《龍貓》(豆瓣評分分)
18、《楚門的世界》(豆瓣評分分)
19、《亂世佳人》(豆瓣評分分)
20、《熔爐》(豆瓣評分分)
21、《觸不可及》(豆瓣評分分)
22、《天堂電影院》(豆瓣評分分)
23、《當幸福來敲門》(豆瓣評分分)
24、《星際穿越》(豆瓣評分分)
25、《無間道》(豆瓣評分分)
26、《怦然心動》(豆瓣評分分)
27、《十二怒漢》(豆瓣評分分)
28、《搏擊俱樂部》(豆瓣評分分)
29、《少年派的奇幻漂流》(豆瓣評分分)
30、《指環王3:王者無敵》(豆瓣評分分)
31、《鬼子來了》(豆瓣評分分)
32、《蝙蝠俠:黑暗騎士》(豆瓣評分分)
33、《活著》(豆瓣評分分)
34、《天空之城》(豆瓣評分分)
35、《羅馬假日》(豆瓣評分分)
36、《大話西遊之月光寶盒》(豆瓣評分分)
37、《飛屋環游記》(豆瓣評分分)
38、《兩桿大煙槍》(豆瓣評分分)
39、《竊聽風暴》(豆瓣評分分)
40、《飛越瘋人院》(豆瓣評分分)
41、《瘋狂動物城》(豆瓣評分分)
42、《控方證人》(豆瓣評分分)
43、《聞香識女人》(豆瓣評分分)
44、《海豚灣》(豆瓣評分分)
45、《哈爾的移動城堡》(豆瓣評分分)
46、《V字仇殺隊》(豆瓣評分分)
47、《教父2》(豆瓣評分分)
48、《辯護人》(豆瓣評分分)
49、《死亡詩社》(豆瓣評分分)
50、《美麗心靈》(豆瓣評分分)
精選推薦:
強推6部豆瓣評分以上的電影
;
豆瓣高分電影電視劇有哪些
;
十大歐美大尺度電影排行
;
豆瓣評分以上電影神作
;
12部美國電影推薦豆瓣高分

2
豆瓣高分電影51-100部

51、《肖申克的救贖》1994
52、《霸王別姬》1993
53、《阿甘正傳》1994
54、《這個殺手不太冷》1994
55、《泰坦尼克號》1997
56、《美麗人生》1997
57、《千與千尋》2001
58、《辛德勒的名單》1993
59、《盜夢空間》2010
60、《忠犬八公的故事》2009
61、《星際穿越》2014
62、《楚門的世界》1998
63、《海上鋼琴師》1998
64、《三傻大鬧寶萊塢》2009
65、《機器人總動員》2008
66、《放牛班的春天》2004
67、《無間道》2002
68、《瘋狂動物城》2016
69、《大話西遊之大聖娶親》1995
70、《熔爐》2011
71、《教父》1972
72、《當幸福來敲門》2006
73、《龍貓》1998
74、《怦然心動》2010
75、《控方證人》1957
76、《觸不可及》2011
77、《末代皇帝》1987
78、《蝙蝠俠:黑暗騎士》2008
79、《尋夢環游記》2017
80、《活著》1994
81、《指環王3:王者無敵》2003
82、《亂世佳人》1939
83、《哈利·波特與魔法石》2001
84、《何以為家》2018
85、《飛屋環游記》2009
86、《素媛》2013
87、《摔跤吧!爸爸》2016
88、《十二怒漢》1957
89、《少年派的奇幻漂流》2012
90、《哈爾的移動城堡》2004
91、《鬼子來了》2000
92、《我不是葯神》2018
93、《大話西遊之月光寶盒》1995
94、《天空之城》1986
95、《天堂電影院》1998
96、《聞香識女人》
97、《指環王2:雙塔奇兵》
98、《羅馬假日》
99、《貓鼠游戲》
100、《辯護人》2013

② 豆瓣電影數據分析

這篇報告是我轉行數據分析後的第一篇報告,當時學完了Python,SQL,BI以為再做幾個項目就能找工作了,事實上……分析思維、業務,這兩者遠比工具重要的多。一個多月後回過頭來看,這篇報告雖然寫得有模有樣,但和數據分析報告還是有挺大差別的,主要原因在於:a.只是針對豆瓣電影數據分析太過寬泛了,具體關鍵指標到底是哪些呢?;b.沒有一個確切有效的分析模型/框架,會有種東一塊西一塊的拼接感。
即便有著這些缺點,我還是想把它掛上來,主要是因為:1.當做Pandas與爬蟲(Selenium+Request)練手,總得留下些證明;2.以豆瓣電影進行分析確實很難找到一條業務邏輯線支撐,總體上還是描述統計為主;3.比起網上能搜到的其他豆瓣電影數據分析,它更為詳細,可視化效果也不錯;

本篇報告旨在針對豆瓣電影1990-2020的電影數據進行分析,首先通過編寫Python網路爬蟲爬取了51375條電影數據,採集對象包括:電影名稱、年份、導演、演員、類型、出品國家、語言、時長、評分、評論數、不同評價佔比、網址。經過去重、清洗,最後得到29033條有效電影數據。根據電影評分、時長、地區、類型進行分析,描述了評分與時長、類型的關系,並統計了各個地區電影數量與評分。之後,針對演員、導演對數據進行聚合,給出產量與評分最高的名單。在分析過程中,還發現電影數量今年逐步增加,但評分下降,主要原因是中國地區今年低質量影視作品的增加。

另外,本篇報告還爬取了電影票房網( http://58921.com/ )1995-2020年度國內上映的影片票房,共採集4071條數據,其中3484條有效。進一步,本文分析了國內院線電影票房年度變化趨勢,票房與評分、評價人數、時長、地區的關系,票房與電影類型的關聯,並給出了票房最高的導演、演員與電影排名。

清洗、去重後,可以看到29033條數據長度、評分、評論數具有以下特點:

結合圖1(a)(b)看,可以看到電影數據時長主要集中在90-120分鍾之間,向兩極呈現階梯狀遞減,將數據按照短(60-90分鍾),中(90-120分鍾),長(120-150分鍾),特長(>150分鍾)劃分,各部分佔比為21.06%, 64.15%, 11.95%, 2.85%。

結合圖2(a)看,可以看到我們採集到的電影數據評分主要集中在6.0-8.0之間,向兩極呈現階梯狀遞減,在此按照評分劃分區間:2.0-4.0為口碑極差,4.0-6.0為口碑較差,6.0-7.0為口碑尚可,7.0-8.0為口碑較好,8.0-10.0為口碑極佳。

這5種電影數據的佔比分別為:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再將評分數據細化到每年進行觀察,可以發現,30年內電影數量與年度電影均分呈反相關,年度均分整體呈現下降趨勢,2016年電影均分最低,電影數量最多。

進一步做出每個年份下不同評級等級的電影數據佔比,可以發現,近年來,評分在[2.0,6.0)的電影數據佔比有著明顯提升,評分在[6.0,7.0)的數據佔比不變,評分在[7.0,10.0)的數據佔比減少,可能原因有:

對照圖5,可以發現,評分與時長、評論人數的分布大致呈現漏斗狀,高分電影位於漏鬥上部,低分電影位於漏斗下部。這意味著,如果一部電影的評論人數很多(特別是超過30w人觀影),時長較長(大於120min),那麼它大概率是一部好電影。

根據各個國家的電影數量作圖,可以得到圖6,列出電影數量前十的國家可得表格2,發現美國在電影數量上占第一,達到8490部,中國其次,達6222部。此外,法國,英國,日本的電影數量也超過1000,其餘各國電影數量相對較少。這可以說明美國電影有著較大的流量輸入,在中國產生了較大的影響。

進一步分析各國電影的質量,依據評分繪制評分箱線圖可得圖7,在電影數量排名前20的國家中:

接著我們可以探索,哪個國家的電影對豆瓣評分隨年份下降的貢獻最大,考慮到電影數量對應著評分的權重。根據上述各國的電影評分表現,我們可以猜測電影數量較多的國家可能對年度均分的下降有較大影響。於是,我們再計算出這些國家的年度電影均分,並與整體均分進行比較分析。

再作出中國大陸,中國台灣,中國香港的均分箱線圖圖9(a),可以看到,大陸電影均分低於港台電影,且存在大量低分電影拉低了箱體的位置。

分析相關性可得,大陸、香港、台灣電影年度均分與全部評分關聯度分別為R=0.979,0.919,0.822,說明濾去台灣和香港電影,大陸電影年度均分的變化趨勢與全部評分變化更接近。圖9(b)可以進一步反映這一點。

可以看到,大部分類型集中在X×Y=[10000,30000]×[6.00,7.50]的區間范圍內,劇情、喜劇、愛情、犯罪、動作類電影數量上較多,說明這些題材的電影是近三十年比較熱門的題材,其中劇情類電影佔比最多,音樂、傳記類電影平均得分更高,但在數量上較少,動作、驚悚類電影評論人數雖多,但評價普遍偏低。

除此之外,還有兩塊區域值得關註:

根據類型對電影數據進行聚合,整理得到各類型電影評分的時間序列,計算它們與整體均分時間序列的相關性,可得表格4與圖11,可以看到劇情,喜劇,懸疑這三種類型片與總分趨勢變化相關性最強,同時劇情、喜劇類電影在電影數量上也最多,因此可以認為這兩類電影對於下跌趨勢影響最大,但其餘類別電影的相關性也達到了0.9以上,說明幾種熱門的電影得分的變化趨勢與總體均分趨勢一致。

前面已經得知,中美兩國電影佔比最高,且對於均分時間序列的影響最大。在此,進一步對兩國電影進行類型分析,選取幾種主要的類型(數量上較多,且相關性較高)進行分析,分別是劇情,喜劇,愛情,驚悚,動作,懸疑類電影,繪制近年來幾類電影的數量變化柱狀圖與評分箱線圖可得圖12,13,14,15。

對導演與演員進行聚合,得到數據中共有15011名導演,46223名演員。按照作品數量在(0,2], (2,5], (5,10], (10,20], (20,999]進行分組統計導演數量,可以發現,15009名導演中有79.08%只拍過1-2部作品,46220名演員中有75.93%只主演過1-2部作品。忽略那些客串、跑龍套的演員,數據總體符合二八定律,即20%的人占據了行業內的大量資源。

在此,可以通過電影得分、每部電影評論人數以及電影數目尋找優秀的電影導演與演員。這三項指標分別衡量了導演/演員的創作水平,人氣以及產能。考慮到電影數據集中可能有少量影視劇/劇場版動畫,且影視劇/劇場版動畫受眾少於電影,但得分普遍要高於電影,這里根據先根據每部電影評論數量、作品數量來篩選導演/演員,再根據電影得分進行排名,並取前30名進行作圖,可得圖17,18。

結合電影票房網( http://58921.com/ )採集到的3353條票房數據,與豆瓣數據按照電影名稱進行匹配,可以得到1995-2020年在中國大陸上映的電影信息,分別分析中國內地電影的數量、票房變化趨勢,票房與評分、評價人數、時長、地區以及類型的關系,此外還給出了不同導演與演員的票房表現以及影片票房排名。

如圖19所示,國內票房數據與上映的電影數量逐年遞增,2020年記錄的只是上半年的數據,且由於受疫情影響,票房與數量驟減。這說明在不發生重大事件的情況下,國內電影市場規模正在不斷擴大。

對電影數據根據類型進行聚合,繪制散點圖21,可以發現:

提取導演/演員姓名,對導演/演員欄位進行聚合,計算每個導演/演員的票房總和,上映電影均分、以及執導/參與電影數目進行計算,作出票房總和前30名的導演/演員,可得圖22,23,圖中導演/演員標號反映了票房排名,具體每位導演/演員的上映影片數量、均分、每部電影評價人數、平均時長與總票房在表5、表6中給出。

最後根據電影票房進行排名,得到票房排名前20的電影如表格7所示,可以看到絕大部分上榜電影都是中國電影,索引序號為3、10、12、14、18、19為美國電影,這也反映了除國產電影之外,好萊塢大片占據較大的市場。

本篇報告採集了1990-2020年間豆瓣電影29033組有效數據,從豆瓣電影的評分、時長、地區、類型、演員、導演以及票房等信息進行分析評價,主要有以下結論:

③ python怎麼抓取豆瓣電影url

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣電影TOP250 - 完整示例代碼
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'httn.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()0414243444546474849505152

簡單說明下,在目錄下會生成一個文檔存放電影名。python2

④ python爬蟲抓取電影top20排名怎麼寫

初步接觸python爬蟲(其實python也是才起步),發現一段代碼研究了一下,覺得還比較有用處,Mark下。
上代碼:

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender:cy"""
一個簡單的Python爬蟲, 用於抓取豆瓣電影Top前100的電影的名稱
Anthor: Andrew_liu
mender:cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""類的簡要說明
主要用於抓取豆瓣Top100的電影名稱

Attributes:
page: 用於表示當前所處的抓取頁面
cur_url: 用於表示當前爭取抓取頁面的url
datas: 存儲處理好的抓取到的電影名稱
_top_num: 用於記錄當前的top號碼
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣電影爬蟲准備就緒, 准備爬取數據..."

def get_page(self, cur_page):
"""
根據當前頁碼爬取網頁HTML
Args:
cur_page: 表示當前所抓取的網站頁碼
Returns:
返回抓取到整個頁面的HTML(unicode編碼)
Raises:
URLError:url引發的異常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通過返回的整個網頁HTML, 正則匹配前100的電影名稱

Args:
my_page: 傳入頁面的HTML文本用於正則匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬蟲入口, 並控制爬蟲抓取頁面的范圍
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一個簡單的豆瓣電影前100爬蟲
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬蟲爬取完成"if __name__ == '__main__':
main()

運行結果:

⑤ .利用python獲得豆瓣電影前30部電影的中文片名,排名,導演,主演,上映時間

熱門頻道

首頁

博客

研修院

VIP

APP

問答

下載

社區

推薦頻道

活動

招聘

專題

打開CSDN APP
Copyright © 1999-2020, CSDN.NET, All Rights Reserved

打開APP

python 網路爬蟲 1.2 獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分,將數據存入文檔。 原創
2021-07-19 01:03:15
2點贊

zynaln

碼齡8年

關注
題目:
獲取豆瓣TOP250電影的中英文名、港台名、導演、上映年份、電影分類以及評分,將數據存入文檔。
代碼:

輸出結果:

文章知識點與官方知識檔案匹配
Python入門技能樹網路爬蟲urllib
201761 人正在系統學習中
打開CSDN APP,看更多技術內容

最新發布 用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
用python爬取豆瓣影評及影片信息(評論時間、用戶ID、評論內容)
繼續訪問

python
寫評論

7

14

2



分享

⑥ Python爬蟲實戰(1)requests爬取豆瓣電影TOP250

爬取時間:2020/11/25
系統環境:Windows 10
所用工具:Jupyter NotebookPython 3.0
涉及的庫:requestslxmlpandasmatplotlib umpy

蛋肥想法: 先將電影名稱、原名、評分、評價人數、分類信息從網站上爬取下來。

蛋肥想法: print數據列表後發現電影原名、分類信息等存在不需要的字元,需預先處理;同時因為後續想做一個豆瓣電影TOP250的維度分布圖,而同一電影存在多個發行國家、類型(如「法國 美國 / 劇情 動作 犯罪」),為了簡(偷)便(懶),這里均取第一個作為記入的數據;最後將數據保存為xlsx。

蛋肥想法: 蛋肥想知道在豆瓣電影TOP250中年份、國家、類型的維度數據,為了練手,使用剛才保存成xlsx的數據,並分別畫成雷達圖、柱形圖、扇形圖。

⑦ python爬蟲小白求幫助:爬取豆瓣網的內容 不知道哪裡出問題了 只能print一行

只獲取到一個movie_name 和 一個movies_score,然後遍歷這兩個值,循環一定是只走兩遍。不知道你這個是不是豆瓣top250 我看頁面元素好像不對了

閱讀全文

與豆瓣電影排行python相關的資料

熱點內容
美國有污又搞笑的電影 瀏覽:641
國外電影父親把女兒帶出去賣 瀏覽:218
電影淚痕插曲土豆網 瀏覽:10
51電影裙子裡面是野獸動畫 瀏覽:489
2016年電影上映所有 瀏覽:614
日本電影渴望哪裡能看 瀏覽:501
v2017香港槍戰電影 瀏覽:498
網路機頂盒vip電視電影全免費是真的嗎 瀏覽:46
鴻運當頭電影2016 瀏覽:758
人潮洶涌電影日本 瀏覽:132
2017年孫儷鄧超新電影 瀏覽:891
17年拍的電視劇或電影 瀏覽:791
武隆區電影院在哪裡 瀏覽:452
電腦看2160p電影卡 瀏覽:1
電影美國警察對日本人 瀏覽:658
2021要出什麼電影 瀏覽:445
電影你好李煥英插曲可愛的她 瀏覽:343
叔叔電影在哪裡能看 瀏覽:111
俄羅斯十大經典電影全集 瀏覽:660
在線觀看動作電影影 瀏覽:68