整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

《寄生虫》横扫奥斯卡,Python告诉你这部电影到底

《寄生虫》横扫奥斯卡,Python告诉你这部电影到底好在哪儿?

数据文摘授权转载自CDA数据分析师

作者:吃一筐柠檬的C君


今年的第92届奥斯卡可谓是大片云集,入围的影片不仅艺术性极高,而且市场口碑都极佳。当中有黑帮片《爱尔兰人》,经典IP《小妇人》,昆汀的《好莱坞往事》,战争片《1917》,另类超级英雄片《小丑》等等,真正称得上是神仙打架。


可谁也没想到,当中韩国电影《寄生虫》爆冷成为了最大的赢家


这部由韩国导演奉俊昊自编自导的影片,一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯,创造历史成为奥斯卡史上首部非英语最佳影片。



作为曾经战斗在与韩国争夺端午节到底是谁发明的一线键盘侠,C君一下子吃了一筐柠檬,酸到不行。今天我们就来聊聊韩国的这筐柠檬,不对,这部电影《寄生虫》。



Show me data,用数据说话

今天我们聊聊《寄生虫》

点击下方视频,先睹为快:


不一样的奥斯卡,原汁原味的韩国电影


说到《寄生虫》横扫本届奥斯卡,你可能会说我们有李安啊,不是也拿奖过吗?要知道作为奥斯卡的宠儿,李安导演在2001年凭借《卧虎藏龙》获得奥斯卡外语片,在2006年和2013年各凭借《断背山》和《少年派的奇幻漂流》收获最佳导演奖,而还未获得最佳影片的殊荣。


这次韩国导演奉俊昊凭借《寄生虫》拿下四座大奖,直接超越了李安导演的记录。


无论我们怎么说,李安拿最佳导演的那两部电影都是属于好莱坞电影,李安甚至都该归为好莱坞的导演,英语说的贼溜。


但反观《寄生虫》,扎扎实实的一部韩国电影,韩国人拍韩国事儿,从导演到演员,从主演到配角,爱喝酒的奉俊昊导演甚至连英语都不会说(颁奖词还得要现场翻译帮忙),而他之前的作品也都是韩国本土的电影。


他自己也在台上发表领奖感言的时候说:“我要感谢昆汀把我的电影放到他的观影表单里面,让全世界更多人知道了我的作品。”


但就是这样一个韩国本土导演,在今年大片云集的情况下拿走份量最重的4个奥斯卡小金人,尤其是历史上首次囊括最佳外语片和最佳电影,也为韩国第一次拿到了奥斯卡,绝对的硬实力。


近年频频开挂的韩国电影


回顾这几年,韩国电影就像开挂一样,每年都会出爆款。比如警匪片《恶人传》;根据村上春树小说改编的《燃烧》;揭露残酷社会现实的《熔炉》几乎部部口碑炸裂,在口味苛刻的豆瓣上都在7.7分以上。



奉俊昊导演其实在韩国早已家喻户晓,除了《寄生虫》,他的这些作品也都耳熟能详


2006年的《汉江怪物》(豆瓣7.4分)是当时韩国少见的科幻电影,票房自上映以来整整保持了六年韩国票房冠军之位直至2012年才被《盗贼同盟》赶超。


2013年的《雪国列车》(豆瓣7.4分)该片的故事发生在一个被气候变化毁掉的未来世界,所有的生物都挤在一列环球行驶的火车上。该片首日在韩国上映就刷新了单日最高票房纪录。


而2003年的《杀人回忆》更是在豆瓣评分高达8.8分,是许多影迷的必刷片,也影响了之火许多同类型影片。同时,这部影片改编自真实事件华城连环杀人案,公映时引起了强烈的社会探讨,令人欣慰的是在2019年9月《杀人回忆》的杀手原型也被缉拿归案。



让我们回到《寄生虫》这部影片,荣获这么多大奖,这部电影到底好在哪儿?


《寄生虫》讲的是什么故事


《寄生虫》主要讲述的是,住在廉价的半地下室出租房里的一家四口,原本全都是无业游民。在长子基宇隐瞒真实学历,去一户住着豪宅的富有家庭担任家教,之后他更是想方设法把父亲、母亲和妹妹全都弄到这户人家工作,过上了“寄生”一般的生活…



《寄生虫》表面上反映的是韩国社会的真实情景,内核上却展现了所有社会都存在的阶级矛盾这一主题。从剧本设定上,穷人一家混进富人一家寄生于此,然后发现早有另一家寄居篱下,两家穷人为了争夺寄生权你死我活,整个故事从开始的搞笑到最后的惨剧,冲突与转折中充满了黑色幽默。即使是韩语的故事,也能几乎让所有的观影者都产生理解和共鸣,这不是一部电影,这就是一部涵盖了社会道德和人与人关系的文学作品。


当我们在深刻分析,一本正经地写影评的时候,爱喝酒的奉俊昊导演,是这么调侃:

  • 记者问:“为什么《寄生虫》这部电影会让这么多的观众产生共鸣?”
  • 奉俊昊回答:“我听到很多人说,这部电影讲述的是有关穷人富人以及资本主义,这也是为什么很多人能从电影中找到共鸣的原因。


当然这种说法没错,但我认为主要原因是电影开头两个年轻人,拿着手机到处找wifi,全世界的人不都是这样吗?很多观众从开头就找到了共鸣。”


真是你拿了大奖,说什么都好听。


那观众又怎么看呢?


我们爬取了《寄生虫》在豆瓣上的影评数据。整个数据分析的过程分为三步:

  • 获取数据
  • 数据预处理
  • 数据可视化


以下是具体的步骤和代码实现:


获取数据


豆瓣从2017.10月开始全面限制爬取数据,非登录状态下最多获取200条,登录状态下最多为500条,本次我们共获取数据521条。


为了解决登录的问题,本次使用Selenium框架发起网页请求,然后使用xpath进行数据的提取。


如下图所示,本此数据爬取主要获取的内容有:

  • 评论用户ID
  • 评论用户主页
  • 评论内容
  • 评分星级
  • 评论日期
  • 用户所在城市


# 导入所需包
import numpy as np
import pandas as pd 
import time
import requests
import re 
from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options

def login_douban():
    '''功能:自动登录豆瓣网站'''
    global browser  # 设置为全局变量
    browser=webdriver.Chrome() 

    # 进入登录页面
    login_url='https://accounts.douban.com/passport/login?source=movie'
    browser.get(login_url) 

    # 点击密码登录
    browser.find_element_by_class_name('account-tab-account').click() 

    # 输入账号和密码
    username=browser.find_element_by_id('username')
    username.send_keys('你的用户名') 
    password=browser.find_element_by_id('password')
    password.send_keys('你的密码') 

    # 点击登录
    browser.find_element_by_class_name('btn-account').click() 

def get_one_page(url):
    '''功能:传入url,豆瓣电影一页的短评信息''' 
    # 进入短评页
    browser.get(url) 

    # 获取网页
    browser.get(url) 
    # 解析网页
    html=etree.HTML(browser.page_source) 

    # 提取用户名
    user_name=html.xpath('//div/div[2]/h3/span[2]/a/text()')
    # 提取用户主页
    user_url=html.xpath('//div/div[2]/h3/span[2]/a/@href')
    # 提取推荐星级
    star=html.xpath('//div/div[2]/h3/span[2]/span[2]/@title')
    # 提取评论时间
    comment_time=html.xpath('//div/div[2]/h3/span[2]/span[3]/@title')

    # 星级和评论时间bug处理,有的用户没有填写推荐星级
    star_dealed=[]

    for i in range(len(user_name)): 
        if re.compile(r'(\d)').match(star[i]) is not None:
            star_dealed.append('还行') 
            # 相同的索引位置插入一个时间
            comment_time.insert(i, star[i]) 
        else:
            star_dealed.append(star[i]) 

    # 提取短评信息
    short_comment=html.xpath('//div/div[2]/p/span/text()')
    # 提取投票次数
    votes=html.xpath('//div/div[2]/h3/span[1]/span/text()') 

    # 存储数据
    df=pd.DataFrame({'user_name': user_name,
                       'user_url': user_url, 
                       'star': star_dealed,
                       'comment_time': comment_time,
                       'short_comment': short_comment,
                       'votes': votes}) 
    return df 

def get_25_page(movie_id):
    '''功能:传入电影ID,获取豆瓣电影25页的短评信息(目前所能获取的最大页数)'''
    # 创建空的DataFrame
    df_all=pd.DataFrame()
    # 循环翻页
    for i in range(25):
        url="https://movie.douban.com/subject/{}/comments?start={}&limit=20&sort=new_score&status=P".format(movie_id,i*20)
        print('我正在抓取第{}页'.format(i+1), end='\r')   
        # 调用函数
        df_one=get_one_page(url) 
        # 循环追加
        df_all=df_all.append(df_one, ignore_index=True)
        # 休眠一秒
        time.sleep(1)    
    return df_all  

if __name__=='__main__':
    # 先运行登录函数
    login_douban()
    # 休眠两秒
    time.sleep(2) 
    # 再运行循环翻页函数
    movie_id=27010768 # 寄生虫
    df_all=get_25_page(movie_id)

爬取出来的数据以数据框的形式存储,结果如下所示:



从用户主页的地址可以获取到用户的城市信息,这一步比较简单,此处的代码省略。


数据预处理


对于获取到的数据,我们需要进行以下的处理以方便后续分析:


  • 推荐星级:转换为1-5分
  • 评论时间:转换为时间类型,提取出日期信息
  • 城市:有城市空缺、海外城市、乱写和pyecharts尚不支持的城市,需要进行处理
  • 短评信息:需要进行分词和提取关键词


代码实现:

# 定义转换函数
def transform_star(x):
    if x=='力荐':
        return 5
    elif x=='推荐':
        return 4
    elif x=='还行':
        return 3
    elif x=='较差':
        return 2
    else:
        return 1

# 星级转换
df_all['star']=df_all.star.map(lambda x:transform_star(x)) 

# 处理日期数据
df_all['comment_time']=pd.to_datetime(df_all.comment_time)

# 定义函数-获取短评信息关键词
def get_comment_word(df): 
    '''功能:传入df,提取短评信息关键词'''
    import jieba.analyse
    import os 
    # 集合形式存储-去重
    stop_words=set()  

    # 加载停用词
    cwd=os.getcwd() 
    stop_words_path=cwd + '\\stop_words.txt'

    with open(stop_words_path, 'r', encoding='utf-8') as sw:
         for line in sw.readlines():
            stop_words.add(line.strip()) 

    # 添加停用词
    stop_words.add('6.3')
    stop_words.add('一张')
    stop_words.add('这部')
    stop_words.add('一部') 
    stop_words.add('寄生虫')
    stop_words.add('一家')
    stop_words.add('一家人') 
    stop_words.add('电影')
    stop_words.add('只能')
    stop_words.add('感觉')
    stop_words.add('全片')
    stop_words.add('表达')
    stop_words.add('真的')
    stop_words.add('本片')
    stop_words.add('剧作')

    # 合并评论信息
    df_comment_all=df['short_comment'].str.cat() 

    # 使用TF-IDF算法提取关键词
    word_num=jieba.analyse.extract_tags(df_comment_all, topK=100, withWeight=True, allowPOS=())
    # 做一步筛选
    word_num_selected=[]

    # 筛选掉停用词
    for i in word_num:
        if i[0] not in stop_words:
            word_num_selected.append(i) 
        else:
            pass 

    return word_num_selected

key_words=get_comment_word(df_all)
key_words=pd.DataFrame(key_words, columns=['words','num'])


数据可视化


用Python做可视化分析的工具很多,目前比较好用可以实现动态可视化的是pyecharts。我们主要对以下几个方面信息进行可视化分析:

  • 评论总体评分分布
  • 评分时间走势
  • 城市分布
  • 评论内容


总体评分分布


截止到目前为止,《寄生虫》在豆瓣电影上有超过63万人评价,网站上的总体评分为8.7分,这个分数无疑是非常高的。好于97% 喜剧片,好于94% 剧情片。



从评分星级来看,5星的占比最高,占总数的35.21%,4星以上的比重占到50%以上,給到3星以下的比重比较少,仅10%不到。



代码实现:




# 总体评分
score_perc=df_all.star.value_counts() / df_all.star.value_counts().sum()
score_perc=np.round(score_perc*100,2)

# 导入所需包
from pyecharts.faker import Faker
from pyecharts import options as opts
from pyecharts.charts import Pie, Page

# 绘制柱形图
pie1=Pie(init_opts=opts.InitOpts(width='1350px', height='750px')) 
pie1.add("", 
         [*zip(score_perc.index, score_perc.values)], 
         radius=["40%","75%"]) 
pie1.set_global_opts(title_opts=opts.TitleOpts(title='总体评分分布'), 
                     legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),
                     toolbox_opts=opts.ToolboxOpts())   
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter="{c}%")) 
pie1.render('总体评分分布.html')


评分时间走势图


评论的热度在2019年8月份最高。可能是出网上资源的时候吧...



代码实现:


time=df_all.comment_date.value_counts() 
time.sort_index(inplace=True)

from pyecharts.charts import Line

# 绘制时间走势图
line1=Line(init_opts=opts.InitOpts(width='1350px', height='750px'))
line1.add_xaxis(time.index.tolist())
line1.add_yaxis('评论热度', time.values.tolist(), areastyle_opts=opts.AreaStyleOpts(opacity=0.5), label_opts=opts.LabelOpts(is_show=False))
line1.set_global_opts(title_opts=opts.TitleOpts(title="时间走势图"), 
                      toolbox_opts=opts.ToolboxOpts(), 
                      visualmap_opts=opts.VisualMapOpts()) 
line1.render('评论时间走势图.html') 

评论用户城市分布


接下来分析了评论者所在的城市分布。


从观影评价城市来看,北京占到绝大多数,其次是上海。这跟微博统计的数据基本一致。



代码实现:




# 国内城市top10
city_top10=df_all.city_dealed.value_counts()[:12] 
city_top10.drop('国外', inplace=True)
city_top10.drop('未知', inplace=True) 

from pyecharts.charts import Bar

# 条形图
bar1=Bar(init_opts=opts.InitOpts(width='1350px', height='750px')) 
bar1.add_xaxis(city_top10.index.tolist())
bar1.add_yaxis("城市", city_top10.values.tolist()) 
bar1.set_global_opts(title_opts=opts.TitleOpts(title="评论者Top10城市分布"), 
                     toolbox_opts=opts.ToolboxOpts(),
                     visualmap_opts=opts.VisualMapOpts()) 
bar1.render('评论者Top10城市分布条形图.html')

评分词云图



代码实现:

from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType, ThemeType 

word=WordCloud(init_opts=opts.InitOpts(width='1350px', height='750px'))
word.add("", [*zip(key_words.words, key_words.num)], 
         word_size_range=[20, 200], shape='diamond') 
word.set_global_opts(title_opts=opts.TitleOpts(title="寄生虫电影评论词云图"), 
                     toolbox_opts=opts.ToolboxOpts())  
word.render('寄生虫电影评论词云图.html')

从电影短评的分词来看,主要集中对“奉俊昊”导演的探讨上。毕竟在此之前,让大家说出一个韩国导演的名字,大家还是有点摸不着头脑的,就知道杀人回忆、汉江怪物挺好看。


其次关于“穷人”“富人”“阶级”等影片故事内核的关注度也很高。


这里面就有一句大家最常提及的台词,引人深思:不是“有钱却很善良”,是“有钱所以善良”,懂吗?如果我有这些钱的话,我也会很善良,超级善良。


与此同时针对影片的剧情“反转”,“镜头”等拍摄手法也是观众的焦点。


很有意思的是,看本片时观众还会跟《燃烧》等韩国电影进行比较。这里也推荐大家可以去看看《燃烧》,也是非常不错的一部作品。


结语


最后,被柠檬酸到不行的我们,可以继续当个键盘侠去羡慕一下韩国的电影审查制度。但最根本的还是年轻的键盘侠们真正长大到要去拍电影、审查电影的时候,能不能真正如自己所说的那般带来改变。当然也可以学学中国足球,我们是不是可以归化一个韩国导演?


如果对这一期的数据感兴趣,可以访问data.cda.cn下载,自己分析了试试。


最后附上本届奥斯卡的完整获奖名单~

家星等级是阿里巴巴国际站综合评判平台商家服务海外买家的意愿及能力的分层体系。旨在帮助平台商家提升服务海外买家的能力,并基于大数据的应用来实现买卖双方更精准的匹配,促进交易更高效的达成。

—关于商家星等级—

1、商家星等级一共包含一星、二星、三星3个等级,商家的信息展示沟通服务交易转化履约保障四大能力项须同时满足一定标准才能成为星级商家。

2、四大能力项中最低的一项决定商家的星级,每个能力项对应的星级标准:

  • 一星的标准均为60-69分;
  • 二星的标准均为70-79分;
  • 三星的标准均为80分及以上。

3、商家当月的评定星等级由上一个自然月月末当天商家的数据表现所决定。

商家可进入MY ALIBABA工作台首页—数据管家—商家星等级板块进行查看。

4、评定星等级和预测星等级的区别:

① 评定星等级展示的是商家当月的星等级,商家当月星级客户权益由此决定。评定星等级在MA后台每月5日更新,当月保持不变。

② 预测星等级展示的是商家当月每天星等级相关指标变化的结果,是当前商家成长趋势及综合实力变化的参考值。预测星等级和四大能力项数据在MA后台每天更新,并有2天的延迟。

更多星等级详细信息和常见问题可参考商家星等级专题:

https://waimaoquan.alibaba.com/bbs/read-htm-tid-3814226-1-fid-215.html

—星级商家权益—

1、星级商家享受全网流量、产品工具服务上的阶梯权益。

2、一星是参加营销活动的基础门槛,二、三星享受活动优先入驻权。

—最新升星利好—

1、三月新贸节行业会场及特色会场招商报名优先权。

三月新贸节以2019年1月5号公布的星等级为报名标准。

(具体报名规则以最终实际上线页面为准)

2、“新星之火”12月升星活动

12月评定星等级为0星的服务中客户,在2019年1月评定星等级变为1星及以上的可同时获得以下奖励资源:

3、信用保障订单交易服务费/基础服务费折扣优惠

自2018年12月12日起至2019年3月31日止,商家的信用保障订单根据选用的不同出口方式将享受以下对应费用折扣优惠:

信用保障交易服务费优惠详情请见论坛贴:

https://waimaoquan.alibaba.com/bbs/read-htm-tid-4103390-fid-341.html

以上活动及优惠详情均以活动方官方发布的活动细则为准。

—升星攻略及课程—

想了解更多关于升星的信息,欢迎登陆相关论坛专题及外贸学院学习了解。

商家星等级介绍(含最新版攻略下载):

https://waimaoquan.alibaba.com/bbs/read-htm-tid-3814226-1-fid-215.html

外贸学院商家星等级系列课程(课程已更新):

https://peixun.alibaba.com/series/detail_CS2YJ09U.htm

————————————

想要一起升星享受优惠,欢迎加入我们,戳右侧链接:

https://air.alibaba.com/apps/aliseller/admittanceMoblie/leadsMobailPage.html?code=20033

或者

日常生活中,我们经常会看到不同的平台使用不同的评分制度来展示用户对产品或服务的评价。例如,豆瓣和虎扑采用10分制,而淘宝店铺和美团点评则选择5分制。那么,为什么同样是为了反映用户评价的功能会有不同的分制呢?这背后是否有着特定的考量?

01 一个有意思的现象

最近在人人都是产品经理上看到了一个非常有意思的问题。为什么豆瓣、虎扑等用十分制评分,而淘宝店铺、美团点评等用五分制?(https://wen.woshipm.com/question/detail/8s2csf.html)。这个问题我从来没有注意过,去app上一看,果然如此。豆瓣、虎扑都是十分制,淘宝、美团都是五分制。

那么问题来了,为啥同样都是评价性质的功能,还要搞不同的分制呢?是不是可以统一成五分制或十分制呢?如果不能,背后有什么考量吗?

02 什么是星级评分

想探究以上的这些问题,就要搞清楚星级评分的一些基本概念。从本质上讲,星级评分是评估产品质量或受欢迎程度的一种算法。在一定意义上,星级评分能够比较真实地反映用户对产品的评价或情感,是一种相对客观的方法。

回想一下,每次去吃一家不太熟悉的餐馆,场景是不是先看一下大众点评上的分数咋样,然后再决定去不去。这就是星级评分的好处,它不需要用户很繁琐地看具体评价,可以通过一个分数,直接获知一个产品或是店铺的优劣,大大节省了用户决策的时间成本。另外,这些数据对于一些有良心的企业,也是监控他们的产品是否得到消费者的信赖和支持的良好指标。

星级评分这种收集用户反馈的方式非常常见。目前主流的评价方式,都是给一个五颗星,然后把所有人的评价通过一个算法转化成分数,分数有五分制和十分制之分。其他的星级评价方式,诸如三星级,十星级都见过,但是不较五星级少见。

回到文章开头的五分制和十分制的问题。既然星级评分就是一种算法,那是不是也可以只给两颗星星让用户去评价,或者一个赞的按钮,一个踩的按钮来评价呢?我觉得是没有问题的,因为这也是一种评价,也反映了用户比较真实的看法和情感。

所以,是什么东西影响使用的评分方式和分制呢?

03 影响星级评分方式和分制的因素

1. 成本因素

从心理测量学角度来说,星级评价可以看做是一种量表。而心理测量学中被广泛使用的测量方法是李克特量表。这是一种总加量表类型的一种,主要是用来反映填写者整体的认同程度和主观评价。一般量表大多采用5级,但是也有7级的,6级的,甚至11级的。

但是从成本角度来说,误差成本会随着量表等级的增加逐步降低,回答成本会随着量表等级的增加而增加。很好理解,回答的星级越多,越能够真实反应用户对产品的满意程度和评价,但是星级越多,让用户回答起来就会非常痛苦,最好的就是能够既让误差没那么大,用户填写起来也不太痛苦。这里贴一个网上的图,图显示,星级为5的时候,是最优的。

2. 量表指标因素

既然星级评价是一种量表,那就需要考虑一些量表指标,比如,信效度、区分度等。

最近在开奥运会,我用奥运会的一个项目举例子说明一下信效度。一个射击运动员,每次都射击6环,我们可以说他信度高,所以,信度代表的是量表的可靠程度。还有一个运动员,虽然不是每次都能够射击同一环数,但是要不就是10环,要不就是9环。我们可以说这个运动员效度比较高。

所以,效度代表的是量表的准确程度。区分度呢,就是这个量表测量的东西,一定能够把不同水平的人给区别开。如果靶子设定的特别大,枪法好和枪法差的都能很轻松地打出10环,那这个靶子的区分度就非常差。

搞清楚了这几个概念,我们就看一下,不同星级评价数量对这几个指标的影响。

曾经有学者做研究表明,7个等级的星级评价要比5个等级的星级评价能得到更可靠的结果,也就是信度会更高些。但是,信度和等级数量之间并不是线性关系。另外的研究表明,等级数量超过9个时,不同等级的差异就没有意义了,不会再提供更多的有效信息,反而会让用户填写起来非常累和困惑。

3. 用户使用习惯问题

通过以上的分析,星级评价的等级数基本锚定在5到9个左右。这和人类短时记忆的容量,7±2个组块的数量不谋而合。所以,在星级评价数量的选取的时候,也要遵循用户的使用习惯。

首先用户是非常不喜欢思考的。对一个事物的评价,最优解就给我一个好还是不好的选项,二极管思维是最受大多数用户的喜爱了。但是这种评价的区分度又太差。又想评价准,又想有区分度,又想不让用户那么累,避免评价数过少,最后分析下来,只有5个等级是最合适的了。

4. 产品调性、对象特征

评价都是为了还原用户对产品整体的认同程度和主观评价。那么,准确和恰当是非常重要的。

比如,B站上,用户对视频的评价就只有顶或者踩。在B站,用户对视频的评价,不是一个谱系,而是一个是或否的关系,要不好看,要不难看,没有稍微不好看,或者稍微好看,这对于用户来说,区分好看和稍微好看非常有难度,且没有必要。这种情况下,就可以牺牲区分度,采用两星级评价。

但是对于电影来说,需要评价的维度特别多,如果仅仅用顶或者踩,准确性会大大折扣。所以,主流的网站,大多采用5等级星级评价。

04 分数呈现有什么讲究

回到开头我们讨论的那个现象,会发现,不管是十分制的豆瓣、虎扑,还是五分制的点评、美团。都采用的是五等级的星级评价。但是分数最终呈现却不是一样的。这有什么讲究吗?

要想知道不同分制的区别,我们就要知道分数是咋算出来的。具体的规则细节肯定是获取不到,我们也不需要知道的那么详细。

简单来说,分数主要还是来自于分数平均(可以看一下豆瓣CEO阿北的回答)。我理解,算法主要是处理评价是否可信的问题,比如,阿北提到的,“和影托或者其他非正常个人意见PK”,“时间和打分这自身的情况”。

这些都是在识别,某一个或某一些评价是否是真实的评价,而不是刷的,或者只是因为个人情绪,恶意给的差评。

算法可以理解是一个门槛,这个门槛只让真实的评价进去,只要你能进去,那算法就简单了,就是计算平均分,阿北也说了嘛,“接近和还原普通观众最原汁原味的平均观影意见。”

其他的平台也应该是这种考虑和算法。

那么,同样的五等级评分,有的是五分制,为啥有的十分制呢?

两种分制的不同,可以理解成,分制越大,区分度越大,越能够将细微的好坏差别体现出来。所以,分制的不同,要回归用户。

如果某个平台上的用户,对某个事物具体比较高的了解程度和鉴赏水准,那就需要比较高的分制。如果某个平台上的用户,对某个事物没有高的了解程度,那就需要给用户一个相对来说较为简单明了的分数,那就需要一个稍微低一点的分制。

所以,这就是为啥同样的五等级评分,美团用五分制,而豆瓣用十分制。

参考

问卷设计:量表到底是要用5级还是6级?– 人人都是产品经理

评价体系用什么规则好?豆瓣是5星10分制,时光网是10星10分制,淘宝是5星5分制 – 知乎

量表等级,5分、7分、10分哪种更好?等级量表数据应该如何分析?

为什么豆瓣、虎扑等用10分制评分,而淘宝店铺、美团点评等用5分制?

本文由 @孟老湿 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自pixabay,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。