泊松矩阵分解：无需数据解决推荐系统冷启动问题的矩阵分解算法- 汇维网

作者 | 汪昊,审校 | 孙淑娟,推荐系统是目前互联网行业最火爆的技术之一。在过去的十年中，互联网行业诞生了数以百万计的推荐系统模型迭代版本。尽管针对不同场景进行优化的推荐系统模型非常之多，但是经典的模型非常少。矩阵分解是推荐系统领域勃兴早期，在 Netflix 大赛中展露头角的推荐系统算法，也是过去十年中最为成功的推荐系统算法。尽管到 2023 年的今天，推荐系统领域早已是深度学习的天下，矩阵分解仍然广泛应用于各大公司研发过程中，并且仍然有许多科研人员在从事相关算法的研究工作。,,矩阵分解算法最为经典的论文是 2007 年的 Probabilistic Matrix Factorization 。在此基础上，后人进行了大量的扩展工作，比如 2021 年的 RankMat（论文下载地址：https://arxiv.org/abs/2204.13016）、ZeroMat （论文下载地址：https://arxiv.org/abs/2112.03084）和 2022 年的 DotMat （论文下载地址：https://arxiv.org/abs/2206.00151）、KL-Mat （论文下载地址：https://arxiv.org/abs/2204.13583/ 代码下载地址：https://github.com/haow85/KL-Mat）等。推荐系统因为其简单易用性，以及速度快等原因，深受互联网行业广大工程师的喜爱。,推荐系统冷启动问题是今年来备受关注的另一个研究热点。许多从业者解决推荐系统的思路都是迁移学习和元学习。然而这个思路有个致命的缺点，就是需要其他知识领域的数据。而许多公司是不具备这一条件的。真正不需要任何数据的冷启动算法，是在 2021 年 ZeroMat 提出以后出现的。代表算法包括上一节提到的 ZeroMat 和 DotMat。本文将要介绍的泊松矩阵分解算法（PoissonMat）是 2022 年国际学术会议MLISE 2022发表的论文。论文的名称是PoissonMat:Remodeling Matrix Factorization using Poisson Distribution and Solving the Cold Start Problem without Input Data（论文下载地址：https://arxiv.org/abs/2212.10460）。,我们首先回顾一下Probabilistic Matrix Factorization的MAP定义：,,我们随后定义用户给物品打分这一行为为泊松分布。根据泊松分布的定义，我们得到以下公式：,,根据泊松公式中参数的定义，我们有：,,根据齐夫分布，我们可以得到如下公式：,,综合以上公式，我们得到泊松矩阵分解（PoissonMat）的解析形式：,,采用随机梯度下降算法求解以上公式，我们得到如下算法流程：,,作者随后在 MovieLens 1 Million Dataset 和 LDOS-CoMoDa Dataset 上进行了算法准确率和公平性的实验对比：,,,图 1 泊松矩阵分解在 MovieLens 1 Million Dataset 上的对比实验,,,图 2 泊松矩阵分解在 LDOS-CoMoDa Dataset 上的对比实验,根据实验对比效果，我们可以得出如下结论：泊松矩阵分解（PoissonMat）在准确率和公平性指标方面都优于其他算法。并且难能可贵的是，泊松矩阵分解算法没有用到任何输入数据，是一个彻头彻尾的零样本学习算法，很好的解决了冷启动问题。,最后，作者是在 16G RAM 和 Intel Core i5 的联想家用笔记本上做的实验，算法运行速度飞快，并且实现也非常简单。,以解决推荐系统冷启动问题为目标的零样本学习算法，目前是研究热点。而不需要任何数据解决零样本学习问题的真正的零样本学习算法，始自 2021 年的 ZeroMat 算法。本文介绍的泊松矩阵分解算法（PoissonMat）性能优于 ZeroMat 及其后续算法 DotMat，是目前这一领域最优秀的算法之一。由于相关研究还处于起步阶段，希望能够引起广大科技从业者的关注和重视。,汪昊，前 Funplus 人工智能实验室负责人，前恒昌利通大数据部负责人。本科 (2008 年)和硕士（2010年）毕业于美国犹他大学（University of Utah）。对外经贸大学在职 MBA (2016年）。在推荐系统（公平性/基于场景的推荐/冷启动/可解释性/排序学习）、计算机图形学（几何建模/可视化）、自然语言处理（工业界的落地应用）、风控反欺诈（金融/医疗）等方向有多年的经验和独到的见解。在互联网（豆瓣、百度、新浪、网易等）、金融科技（恒昌利通）和游戏公司（Funplus等）有 12 年的技术研发和管理经验。在国际学术会议和期刊发表论文 30 篇，获得国际会议最佳论文奖 / 最佳论文报告奖 3 次（IEEE SMI 2008 Best Paper Award / ICBDT 2020 Best Oral Presentation Award / ICISCAE 2021 Best Oral Presentation Award）。2006 年 ACM/ICPC 北美落基山区域赛金牌。2004 年全国大学生英语能力竞赛口语决赛铜牌。2003 年济南市高考理工科英语状元。