博客
电影
宝箱
友链
关于
<
Webpack深入浅出loader
《浪潮之巅》读书笔记,武侠之风的IT史
>
一百年来700部高分电影数据分析报告
作者:
Cifer
类别: 电影·漫谈
时间:2019-08-26 20:37:44
字数:9183
版权所有,未经允许,请勿转载,谢谢合作~
###前言 心血来潮,Cifer决定做一个<a href="https://www.boatsky.com/blog/87">高分电影的数据报告</a>,报告之前,先以问答式简述这个报告的数据来源、范围、标准等定义及附录(因文章较长,为让读者更快的看到数据,把重要的说明都放到文章末尾的附录中了)。 #### 目录 <a href="#title_1">定义</a> <a href="#title_2">电影类型分析</a> <a href="#title_3">电影上映时间分析</a> <a href="#title_4">评分分析</a> <a href="#title_5">地区分析</a> <a href="#title_6">电影名字分析</a> <a href="#title_7">附录</a> <i id="title_1"></i> ### 定义 ##### 100年具体范围? 1920年-2019年 ##### 以哪个网站的评分为标准? IMDB:互联网电影资料库,全球用户最多的电影评分网。 豆瓣:中国最大的电影评分网。 ##### 高分是多高? 高分只是一个比较值,本文一般是指,IMDB 7.4+或者豆瓣8.0+。 ##### 为什么是700部? Cifer从亲自看过的电影中,挑选出有代表性的700部高分电影。(为什么它们具有代表性,见文末附录1) ##### 具体哪700部? <a href="https://www.boatsky.com/movie/list " target="_blank">https://www.boatsky.com/movie/list </a> 里面也有一个百分制的推荐指数,只是个人的评分,不具有太大的参考性,未涉及本文数据分析。 ##### 700部电影都参与了数据分析吗? 因为不可描述的原因,豆瓣删除了一些电影,在700部中,删除的有: ```` 天浴 ——1998 盲井 ——2003 竞相灭绝 ——2015 出租车司机 ——2018 ```` 它们没有豆瓣评分,所以豆瓣评分统计,只作分母,不作分子。 <i id="title_2"></i> ### 电影类型分析 此报告把电影分成如下17个分类,为了方便统计,一部电影只会处于一个分类之下,然而现实中一部电影可能同时属于多个分类,采用最小子集与最匹配原则(见文末附录2)划分。 | 类型 | 数量 | 百分比 | | ------------ | ------------ | ------------ | | 剧情 | 212 | 30.3% | | 动画 | 97 | 13.9% | | 犯罪 | 56 | 8% | | 科幻 | 45 | 6.9% | | 战争 | 36 | 5.1% | | 悬疑 | 35 | 5% | | 爱情 | 32 | 4.6% | | 动作 | 30 | 4.3% | | 喜剧 | 28 | 4% | | 传记 | 17 | 2.4% | | 西部 | 16 | 2.3% | | 文艺 | 15 | 2.1% | | 恐怖 | 13 | 1.9% | | 音乐 | 11 | 1.6% | | 记录 | 10 | 1.4% | | 励志 | 8 | 1.1% | | 同性 | 6 | 0.8% | 剧情片占比多,因为大量的电影不便入已知分类,都被划入剧情片,它更像是一种“其他”的选项。动画片理论上是一种电影形式,而不是分类,但因目前大部分动画片都面向小朋友,故独立成为一个大类。 <i id="title_3"></i> ### 电影上映时间分析 以10年为一个时代单位 | 时代 | 数量 | 百分比 | | ------------ | ------------ | ------------ | | 1920-1929 | 12 | 1.7% | | 1930-1939 | 8 | 1.1% | | 1940-1949 | 15 | 2.1% | | 1950-1959 | 25 | 3.6% | | 1960-1969 | 30 | 4.3% | | 1970-1979 | 36 | 5.1% | | 1980-1989 | 67 | 9.6% | | 1990-1999 | 124 | 17.8% | | 2000-2009 | 176 | 25.1% | | 2010-2019 | 207 | 29.6% | 以2003年为分界点,2003年之前与之后(之后包括2003年)各占50%,即有一半的电影选自最近17年,倒不是因为这17年的电影最优秀,而是观众趋向于看“新”电影,并且最近每年的新增电影也越来越多。 ##### 上映时间最早的10部电影: ```` 卡里加里博士的小屋 ——1920 寻子遇仙记 ——1921 安全至下 ——1923 待客之道 ——1923 福尔摩斯二世 ——1924 七次机会 ——1925 淘金记 ——1925 圣女贞德蒙难记 ——1925 将军号 —— 1926 大都会 —— 1927 ```` ##### 最近上映的10部电影: ``` 寄生虫 —— 2019 疾速备战 ——2019 蜘蛛侠:平行宇宙 —— 2018 龙珠超:布罗利 —— 2018 无敌破坏王2:大闹互联网 —— 2018 波西米亚狂想曲 —— 2018 调音师 —— 2018 无双 —— 2018 徒手攀岩 —— 2018 气球 —— 2018 ``` <i id="title_4"></i> ### 评分分析 其实电影评分是变化的,从80天前拉取的数据与现在拉取的数据对比,IMDB有15%左右的电影评分有变动,一般是分数减0.1分;豆瓣则有10%左右的电影评分有变动,一般是增加0.1分。前者是正常的,因为随着时间评分人数的增加,评分一般是呈下降趋势;后者有点反常,可能是新用户对评分越来越宽容了。 下面我们看看这700部电影,上限(最高分)与下限(最低分)都有哪些。 ##### IMDB评分最高的电影(14部) 注:之所以不是10部,因为同时并列7部8.8分,不便于分隔,所有不凑10的情况都是类似 ``` 肖申克的救赎 ——9.3 教父 ——9.2 教父2 —— 9.0 指环王3:国王归来 —— 8.9 低俗小说 —— 8.9 辛德勒的名单 —— 8.9 十二怒汉 —— 8.9 黄金三镖客 —— 8.8 盗梦空间 —— 8.8 搏击俱乐部 —— 8.8 指环王1:护戒使者 —— 8.8 剧院魅影 —— 8.8 切腹 —— 8.8 阿甘正传 —— 8.8 ``` ##### 豆瓣评分最高的电影(13部) ``` 肖申克的救赎 ——9.7 剧院魅影 ——9.7 霸王别姬 ——9.6 控方证人 ——9.6 辛德勒的名单 ——9.5 美丽人生 ——9.5 阿甘正传 ——9.5 十二怒汉 ——9.5 泰坦尼克号 ——9.5 茶馆 ——9.5 三十二 ——9.5 这个杀手不太冷 ——9.5 福尔摩斯二世 ——9.5 ``` ##### IMDB与豆瓣平均分最高(11部) 计算方式:两者相加除以2,四舍五入 ```` 肖申克的救赎 —— 9.5 教父 —— 9.3 剧院魅影 —— 9.3 辛德勒的名单 ——9.2 阿甘正传 ——9.2 十二怒汉 —— 9.2 教父2 —— 9.1 盗梦空间 —— 9.1 指环王3:国王归来 —— 9.1 切腹 —— 9.1 美丽人生 —— 9.1 ```` ##### IMDB评分最低的电影(13部) ```` 茜茜公主 ——7.0 师父 ——7.0 康斯坦丁 ——7.0 空之境界 第一章 俯瞰风景 ——7.0 无双 ——7.0 狙击电话亭 ——7.0 变形金刚 ——7.0 八两金 ——6.9 洛丽塔 —— 6.9 阿Q正传 —— 6.8 纵横四海 —— 6.8 空之境界 第六章 忘却录音 —— 6.8 黑客帝国3:矩阵革命 —— 6.7 ```` ##### 豆瓣评分最低的电影(10部) ```` 死侍2 ——7.3 星球大战外传:侠盗一号 ——7.3 蚁人2:黄蜂女现身 ——7.3 巴霍巴利王:开端 ——7.3 十二宫 ——7.3 龙珠超:布罗利 ——7.3 无间道风云 ——7.2 水形物语 ——7.2 巴霍巴利王2:终结 ——7.1 神奇女侠 ——7.1 ```` ##### IMDB与豆瓣平均分最低(11部) ```` 泰山 —— 7.5 狙击电话亭 —— 7.5 疾速追杀 —— 7.5 蜘蛛侠2 —— 7.4 海底总动员 —— 7.4 杀出个黎明 —— 7.4 月光男孩 —— 7.4 康斯坦丁 —— 7.4 神奇女侠 —— 7.3 水形物语 —— 7.3 蚁人2:黄蜂女现身 —— 7.2 ```` 由上可知中外影迷爱好有一定的差异,哪些电影差异最大呢? ##### IMDB低估而豆瓣高估的电影(10部) 计算方式:豆瓣评分大于IMDB评分1.6分。 | 电影名称 | IMDB评分 | 豆瓣评分 | | ------------ | ------------ | ------------ | | 纵横四海 | 6.8 | 8.8 | | 黑客帝国3:矩阵革命 | 6.7 | 8.7 | | 茶馆 | 7.5 | 9.4 | | 海蒂和爷爷 | 7.4 | 9.1 | | 与玛格丽特的午后 | 7.8 | 9.4 | | 泰坦尼克号 | 7.8 | 9.4 | | 芝加哥 | 7.8 | 8.7 | | 空之境界 第一章 俯瞰风景 | 7.0 | 8.6 | | 我的邻居山田君 | 7.2 | 8.8 | | 攻壳机动队2:无罪 | 7.8 | 9.1 | ##### IMDB高估而豆瓣低估(8部) 计算方式:IMDB评分大于豆瓣评分0.5分。 | 电影名称 | IMDB评分 | 豆瓣评分 | | ------------ | ------------ | ------------ | | 无间道风云 | 8.5 | 7.2 | | 巴霍巴利王2:终结 | 8.3 | 7.1 | | 回到未来 | 8.4 | 7.4 | | 巴霍巴利王:开端 | 7.9 | 7.3 | | 龙珠超:布罗利 | 7.8 | 7.3 | | 星球大战外传:侠盗一号 | 7.8 | 7.3 | | 夺宝奇兵1之法柜奇兵 | 8.4 | 7.9 | | 马耳他之鹰 | 8.0 | 7.5 | ##### 豆瓣评分与IMDB评分的对应关系 | 豆瓣 | 数量 | 百分比 | IMDB | 数量 | 百分比 | | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | | 8.0+<br>8.1+ | 626<br>621 | 89%<br>88% | 7.4+ | 625 | 89% | | 8.2+ | 576 | 82% | 7.5+ | 585 | 84% | | 8.3+ | 532 | 76% | 7.6+ | 554 | 79% | | 8.4+ | 478 | 68% | 7.7+ | 494 | 71% | | 8.5+ | 410 | 59% | 7.8+ | 434 | 62% | | 8.6+ | 357 | 51% | 7.9+ | 364 | 52% | | 8.7+ | 291 | 42% | 8.0+ | 327 | 47% | | 8.8+ | 216 | 31% | 8.1+<br>8.2+ | 252<br>172 | 36%<br>26% | | 8.9+<br>9.0+ | 141<br>111 | 20%<br>16% | 8.3+ | 126 | 18% | | 9.1+ | 73 | 10% | 8.4+ | 84 | 12% | | 9.2+ | 53 | 8% | 8.5+ | 54 | 8% | | 9.3+ | 27 | 4% | 8.6+<br>8.7+ | 32<br>18 | 5%<br>3% | | 9.4+ | 13 | 2% | 8.8+ | 14 |2% | | 9.5+ | 7 | 1% | 8.9+ | 7 | 1% | 可以发现,IMDB评分普遍比豆瓣低(原因见文末附录4),可粗略的认为,IMDB的8.0分相当于豆瓣的8.7分,一般来说,一部电影的豆瓣评分减个0.6或0.7就是它的IMDB评分了。 排名前10%(70部左右),即如果一部电影能达到IMDB评分8.4分以上或者豆瓣9.1分以上,那么它就是优质电影中的顶级电影。 如果它在IMDB评分8.4分以上并且豆瓣9.1分以上,那么差不多就是顶级电影中人见人爱的那种,共有32部。 (注:按照IMDB与豆瓣平均分排名): ```` 肖申克的救赎 剧院魅影 教父 辛德勒的名单 阿甘正传 十二怒汉 教父2 盗梦空间 指环王3:国王归来 美丽人生 切腹 这个杀手不太冷 控方证人 千与千寻 星际穿越 黄金三镖客 迷墙 摩登时代 生活多美好 城市之光 三十二 飞跃疯人院 七武士 触不可及 机器人瓦力 洞 天堂电影院 海豚湾 美国往事 三傻大闹宝莱坞 迦百农 窃听风暴 ```` <i id="title_5"></i> ### 地区分析 因为中国内地、中国香港与中国台湾三者之间的电影风格实在区别太大了,并且审查制度也不太相同,故分开比较。 | 国家/地区 | 数量 | 百分比 | | ------------ | ------------ | ------------ | | 美国 | 385 | 55% | | 日本 | 78 | 11% | | 英国 | 37 | 5% | | 中国内地 | 31 | 4% | | 法国 | 30 | 4% | | 中国香港 | 29 | 4% | | 意大利 | 19 | 3% | | 中国台湾 | 15 | 2% | | 俄罗斯 | 13 | 2% | | 韩国 | 13 | 2% | | 其他 | 50 | 7% | 2018年数据,中国内地人口 13.95亿,而世界人口75.94亿,占比18%,然而“优质”电影仅占4%,显然中国内地电影水平远远落后人口占比。 ##### 中国内地的31部电影 注: 按豆瓣与IMDB平均分排名,下面各地区同理。 ```` 三十二 霸王别姬 大闹天宫 活着 鬼子来了 剃头匠 芙蓉镇 我不是药神 阳光灿烂的日子 天书奇谭 茶馆 哪吒闹海 城南旧事 心迷宫 可可西里 那山那人那狗 万箭穿心 功夫 亲爱的 盲山 钢的琴 红高粱 驴得水 甲方乙方 无人区 太阳照常升起 师父 阿Q正传 无双 盲井 天浴 ```` ##### 中国香港的29部电影 ```` 无间道 大话西游之大圣娶亲 甜蜜蜜 大话西游之月光宝盒 重庆森林 花样年华 春光乍泄 英雄本色 喋血双雄 唐伯虎点秋香 倩女幽魂 阿飞正传 秋天的童话 岁月神偷 阮玲玉 喜剧之王 桃姐 九品芝麻官 暗战 阿郎的故事 东邪西毒 精武门 青蛇 纵横四海 监狱风云 天若有情 赌神 黄飞鸿 八两金 ```` ##### 中国台湾的15部电影 ```` 牯岭街少年杀人事件 一一 饮食男女 喜宴 童年往事 赛德克·巴莱(上)太阳旗 恋恋风尘 大佛普拉斯 冬冬的假期 赛德克·巴莱(下)彩虹桥 侠女 卧虎藏龙 色戒 海滩的一天 风柜来的人 ```` <i id="title_6"></i> ### 电影名字分析 | 电影名称字数 | 电影数量 | 百分比 | | ------------ | ------------ | ------------ | | 1 | 5 | 0.7% | | 2 | 81 | 11.6% | | 3 | 110 | 15.7% | | 4 | 228 | 32.6% | | 5 | 123 | 17.6% | | 6 | 40 | 5.7% | | 7 | 29 | 4.1% | | 8 | 22 | 3.1% | | 9 | 25 | 3.6% | | 10 | 13 | 1.9% | | 11+ | 24 | 3.4 | 电影名字最常见是4个字,符合中文成语琅琅上口的特点,其次是5个字与3个字。然而最近20年的电影经常性加上副标题,比如 《无敌破坏王2:大闹互联网》,所以未来应该长字会变多。 有哪些电影名字起的(或者说翻译的)很好呢? ```` 《迦百农》:可惜被改成《何以为家》,其实电影不是在围绕“家”讲感情冲突的鸡毛破事,而是反映一个的复杂的社会问题,讲社会失去了秩序。《圣经》里迦百农这个地点由圣地变废墟,刚好映射了电影题目与内容。 《莉兹与青鸟》:高明在于,谁是莉兹,谁是青鸟? 《囚徒》:精确表达电影的所有人面对的囚徒困境 《言叶之庭》:青叶雨庭,明明无语,胜于言语 《熔炉》:世界就是一个庞大的熔炉 《步履不停》:无论发生什么,时间从来不会停止 《黑皮书》:述写生命的“黑”书 《肖申克的救赎》:自我的三个层次救赎 《霸王别姬》:不成魔不成活 《乱》:万恶之源,乱世之首 《第七封印》:人有七宗原罪,同时对应七个封印,每打开一道封印会有在炼狱中被审判赎罪,如果最后的一道,也就是第七道封印被打开,则会迎来大审判,人间将不复存在,唯有地狱与天堂 ```` <i id="title_7"></i> ### 附录 ##### 附录1:为什么只挑选700部 截至2019年8月,<a href="https://www.imdb.com/pressroom/stats/" target="_blank" ref="nofollow">IMDB所有电影</a>516,726部,即便一个人每天看24小时,平均每部2小时,看完这些也需要118年,更不要说每年都在新增(如2018年上映且在国内某视频网站可播放的电影就近9000部(还只是上映电影的一部分),每天24小时,看完这一年的这一部分就需2年+),所以不可能有人看完,也没有必要,所以文中选出700部。 这700部可能只占目前全部电影的0.14%,遗漏部分优质电影是必然的,却几乎包括了所有IMDB佳片250、豆瓣top250,里面几乎没有烂片(其中,豆瓣8.0+的电影占比89%,其他11%也是真实水平比较接近8.0分)。 同时,它们剔除重复电影(见附录3)。 为了防止分数过于虚高,一般要等电影上映多个月之后,评分稳定才会收录。 ##### 附录2: 最小子集与最匹配原则 举例: <a href="https://www.boatsky.com/blog/85" target="_blank">《安妮·霍尔》</a>它同时属于剧情片、爱情片、喜剧片、文艺片,后三者是剧情片的子集,所以排除剧情片(仅当已知分类无法接收其时,才会划入剧情片)。在爱情片、喜剧片、文艺片之中选择,电影主角艾维·辛格与其说是爱情问题,不如说是一种神经质的文艺病的身分认同问题,排除爱情片。在喜剧片与文艺片对比之中,《安妮·霍尔》与其他低俗喜剧片有明显的分别,所以最终划入文艺片分类中。 ##### 附录3:剔除重复电影 电影重复是指翻拍时,如果太相似,只选其中一部,举例: ```` 《东京家族》——2013翻拍不错,但不如原型《东京物语》——1953,两者内容极其重复,剔除《东京家族》。 《忠犬八公物语》——1987不错,但《忠犬八公的故事》——2009故事性更强,剔除《忠犬八公物语》。 《她与她的猫》——1999是原型,但《她和她的猫》——2016画质更佳,剔除《她与她的猫》——1999。 ```` ##### 附录4:排除个别差异性的电影,为什么IMDB评分还是普遍比豆瓣低很多? 原因有四: 其一: IMDB以十星制,所以用户可以很方便的用7分、8分、9分、10分四个等级区别在及格6分之上的电影。 豆瓣是五星制,用户只能给8分(四星)、10分(五星)两个等级去评价 6分(三星)之上的电影,如此一来,就算用户只想给7分与9分,用户实际上却给了8分与10分的评价。 低多少请看后续内容。 其二: IMDB受众来自各国,口味不一,比豆瓣少一点“情操”绑架。(zhengzhi正确绑架也是有的) 其三: IMDB有权重差异,更精准。 其四: 评分人数样本不一,部分电影评分人数过少,不具有太大的参考性。 ##### 附录5:IMDB与豆瓣评分靠谱吗? 说实话,IMDB水军很多,豆瓣水军更多,然后相对于其他电影评分网站,它们是比较靠谱的。 ##### 附录6:评分高的电影不一定好,评分低的电影一定不好 从逻辑上来讲,这是讲不通的,因为好电影是有被恶意刷低分的可能性的。从经验上来讲,Cifer看过的所有电影都符合上述原则,如果遇到例外,可以去买彩票。 ##### 附录7:看电影评分如何分辨出水军呢? 一方面是需要用户查看评分结构图,一般好片是P型图(高分人数少、中高分数人数多,中等分数人数少,低分人数极少),而烂片是b型图(高分与中高分人数极少,中等分人数少,低分人数极多),如果出现K型图(高分人数多,且低分人数也多)就是水军污染严重的评分。 另一方面,系统应该自动识别水军,除低水军评分的权重,IMDB有权重算法,豆瓣没有。 ##### 附录8:电影评分加权重合理吗? 看个电影而已,评分的时候凭什么有的人权重远高于其他人,是不是不合理? 这就要讲立场了,看观众认为,电影是一种“艺术”表达形式,还是一种“娱乐至死”的方式?Cifer是在站“艺术”的立场的。 电影本质上还是精神内涵的一种媒体表达,就像文学一样,是需要观众有一定的知识基础的,有门槛的。每个人的知识广度与深度不一样,所以看同一部电影,看到的东西可能不一样,因此权重是必要的。 其实权重这事在生活中处处都是,比如音乐类比赛的节目,评委一般都是资深人士,虽然旁边也坐着很多有评分资格的普通观众,但单个评委对参赛者的评分权重远大于单个普通观众。 至于网站如何识别一个用户的权重,这就是另一个问题了。 ##### 附录9:怎么分辨一部电影的好坏? <a href="https://www.boatsky.com/blog/19" target="_blank">https://www.boatsky.com/blog/19</a>
如果觉得有帮忙,您可以在本页底部留言。
相关推荐:
怎么分辨一部电影的好坏
……
更多
<
Webpack深入浅出loader
《浪潮之巅》读书笔记,武侠之风的IT史
>
全部留言
我要留言
内容:
网名:
邮箱:
个人网站:
发表
全部留言