豆瓣书评分和推荐靠谱吗?-一点数据分析视角

豆瓣的阅读评分有非常非常明显的划分。具体时期我没有做详细的考证,但是豆瓣的老用户,尤其是经常使用豆瓣阅读的人,应该都有类似的经历:有一天,你在豆瓣阅读的新书推荐中看到一本看起来很有趣,而且评分很高的书。你买回家了,但是看完之后很失望。此时,你突然意识到,一定时期后出版的新书的豆瓣评分是不可信的。

比如我之前看过的《未来简史》这本书就不好看。抱歉得了8.5的高分。看了goodreads,发现评分只有3.69星,没有豆瓣高(图1)。国内外对这本书的评价差异较大。

而且,你还可以在亚马逊上看到截然相反的短评。有人认为这是“可靠的未来预测”,也有人说这本书“哗众取宠,毫无科学依据”(图2、图3)。

另一方面,豆瓣上同样8.5分的书,如《九个故事》、《悟空的故事》、《人生的喜悦》都很不错,goodreads都达到了4.15星的水平。所以有个问题,豆瓣书的评分靠谱吗?会不会有一些分数不相关的书,主要影响因素是什么?鉴于此,我选取了国内外不同年代、不同出版社的一些不同书籍做了一个比较。

1.数据概述

选择2001-2017,国内出版的书。限制豆瓣评分数在2周以上,一方面讨论大家熟悉的主流书籍,另一方面尽量减少水军的影响等等。总计***997份。在中信云机器学习平台的帮助下,我们对比并展示了书籍的分数,分数分布图如下(图4):

里面有很多我们熟悉的书,比如《围城》、《肖申克的救赎》、《百年孤独》等等(下图5)。

同时,通过应用中信云机器学习平台,我们对包括中信图书出版社在内的其他出版社出版的小说图书做了方差和评分分布图(如下图6所示)。我们可以看到中信小说的评分范围在7以上,STD差距主要分布在1.5-1.75之间。我们来看一看,分析一下。评分有什么区别?

2.分数的差异

2.1未来简史VS时间简史

以上述两本书的评分(图7)为例。他们的评分一样,人数也很多(6K,18K),但是4星和2星的比例差别很大。你什么意思?

●时间简史:大家都觉得不错,所以评分重点在4星。

●未来简史:同时有很多人觉得好/差,2星和4星的分布也很多。

也就是说,虽然他们的(平均)分数相同,但背后的观点却大相径庭,分数相差很大,这正好对应了未来简史中存在两种截然相反的热评的情况。

2.2如何衡量分数差异

分数分布的差异可以用方差来衡量,计算方法如下:

也就是计算偏离平均分的程度?。在下文中,可以使用标准差(STD)和方差的平方根。可以做出标准差(STD)-豆瓣菜评分散点图(图9)。为了比较,做一个标准差为97%的范围线。

可见时间简史和未来简史的STD差别真的很大。未来简史标准差排在前3%,有争议,时间简史小很多。然后我们可以提问

这几部小说的评分一样,但是一样好/不好吗?

比如《时间简史》和《未来简史》是一样的,但是它们是不是一样好看?

当然不是。

如前对比所示,未来简史虽然得分高,但其4星/2星与时间简史相差较大。为什么?你可能听说过,可以在评论里看到。通常我们总是在说一本书的分数,这只是平均分。当大家都认同的时候,这个分数就很有参考价值了。如果分数相差很大(STD很大),这个分数的作用是有限的。

3.类别差异

对于同一类别,不同出版社,评级和标准差差别很大。那么,对于同一出版社不同类目的书的评分会有多少个形状呢?我们选取中信出版社的图书部分进行数据分析,使用K-Means以四个评分等级的比例输入数据。其实我们可以把类别分为四类,有代表性。结果如下(图10和图11)。

需要注意的是,STD高的书,因为形状差异大,不适合分类。

从上图可以看出,在每个形状下,也可以看到STD高/低的书,比如《每个人都应该买保险》、《二手时间》等。整体来看,中信出版的书评分在7.6-8.8,STD比较稳定,没有特别大的波动,所以类别之间其实差别不大。

4.爆款书分数的差异

我们用中信出版社这些年的舆论变化和图书爆款做了一个类比(图12)。

爆炸的数量变化如下所示(图13)

从图12和图13可以看出,中信出版社历年的爆款图书总体是正态分布,说明使用的数据量基本充足。每个时代的爆款数量没有一定的规律。对应的爆款书的舆情分布是什么,如下图14所示。

上图显示中信的爆款书的STD显示效果主要集中在1.3-1.6之间,我们把这些书拿出来一部分展示在下面(图15)。

从上图可以看出,经典书籍的分数与STD高度相关,分数越高,STD就会越低。也就是说,虽然图书评分是一件很个人的事情,每个人对图书的评价会有所不同,但是在豆瓣的大量用户下,评分是很大众化的,经典图书的评分STD还是很小的。换句话说,书籍的评分与出版时间、爆款程度并不存在正相关关系。

5.评价差异最大的一本书是什么?

从上图可以看出,每个分数的STD有高有低,那么我们来看看STD的最大临界值是多少。从样本中,我们筛选出了STD差异最大的书籍,如下图所示:

评价差异大的原因可能来自多方面,这里就不讨论了。

6.搜索内容和评分差不多的书准确吗?

如果你读过《兰州大学大师之孤独》等书,是否还想继续寻找内容、评分、评分都不相上下的书?豆瓣本身有推荐机制,如下图所示:

我们可以看到,豆瓣推荐的一些书,无论是评分、评分还是内容,都与目标书有较大差异。为了验证评分和评分的相似度,我们对中信云机器学习平台上的豆瓣书籍进行了相似度建模,通过word2vec分析,找到了在内容、评分和评分上与目标书籍最接近的书籍。

比如我们在硅谷输入钢铁侠,通过对硅谷钢铁侠的数据标签进行建模分析,可以找出最接近这本书内容的词云,如下图所示(图21)。

我们从豆瓣上找出了对这两本书的评价,评分和评分构成非常相似。

推荐的时候,查询鞋狗,第一关联就是硅谷的钢铁侠名列前茅,豆瓣的推荐和机器学习的推荐一致。

摘要

众所周知,豆瓣书籍的平均分是有显示的,我们也可以看到分数的分布。大多数情况下,这个平均分是有效的,因为大家的评价都比较接近(STD小),但是很少有人关注分数的差异(也就是STD的大小)。当我们看到一本STD很大的书,平均分与我们的感受不符,我们会感到迷茫,进而认为豆瓣的评分不靠谱。事实上,

豆瓣的图书推荐,通过对目标图书的内容标签、评分构成、区间的综合对比,推荐与目标图书最接近的图书。从目前机器学习测量样本数据的观察来看,这个分数比较准确。

最后,如果分析中有什么遗漏或者不清楚的地方,欢迎大家指出~

安利:中信机器学习平台,感兴趣的朋友可以注册试试。