在前面的水果示例中,你根据个头和颜色来比较水果,换言之,你比较的特征是个头和颜色。
现在假设有三个水果,你可抽取它们的特征。

再根据这些特征绘图。

从上图可知, 水果A和B比较像。下面来度量它们有多像。要计算两点的距离,可使用毕达哥拉斯公式。

例如, A和B的距离如下。

A和B的距离为1。你还可计算其他水果之间的距离。

这个距离公式印证了你的直觉: A和B很像。

假设你要比较的是Netflix用户,就需要以某种方式将他们放到图表中。因此,你需要将每位用户都转换为一组坐标,就像前面对水果所做的那样。

在能够将用户放入图表后,你就可以计算他们之间的距离了。

下面是一种将用户转换为一组数字的方式。用户注册时,要求他们指出对各种电影的喜欢程度。这样,对于每位用户,都将获得一组数字!

Priyanka和Justin都喜欢爱情片且都讨厌恐怖片。 Morpheus喜欢动作片,但讨厌爱情片(他讨厌好好的动作电影毁于浪漫的桥段)。前面判断水果是橙子还是柚子时,每种水果都用2个数字表示,你还记得吗?在这里,每位用户都用5个数字表示。

在数学家看来,这里计算的是五维(而不是二维)空间中的距离,但计算公式不变。

这个公式包含5个而不是2个数字。

这个距离公式很灵活,即便涉及很多个数字,依然可以使用它来计算距离。你可能会问,涉及5个数字时,距离意味着什么呢?这种距离指出了两组数字之间的相似程度。

这是Priyanka和Justin的距离。

Priyanka和Justin很像。 Priyanka和Morpheus的差别有多大呢?请计算他们之间的距离,再接着往下读。

Priyanka和Morpheus的距离为24,你算对了吗?上述距离表明,Priyanka的喜好更接近于Justin而不是Morpheus。

太好了!现在要向Priyanka推荐电影将易如反掌:只要是Justin喜欢的电影,就将其推荐给Priyanka,反之亦然。你这就创建了一个电影推荐系统!

如果你是Netflix用户, Netflix将不断提醒你:多给电影评分吧,你评论的电影越多,给你的推荐就越准确。现在你明白了其中的原因:你评论的电影越多, Netflix就越能准确地判断出你与哪些用户类似。

results matching ""

    No results matching ""