
arxiv-IR 25.08.14—25.08.24
INFNet: A Task-aware Information Flow Network for Large-Scale Recommendation Systems
论文链接:INFNet: A Task-aware Information Flow Network for Large-Scale Recommendation Systems
组织:快手
方向:特征交叉、多任务学习
摘要:特征交互因其在捕捉特征间复杂依赖关系方面已被证实的有效性,长期以来一直是大规模推荐系统中排序模型的基石。然而,现有的特征交互策略在工业应用中面临两个关键挑战: 海量特征带来的计算负担: 大量的分类特征和序列特征使得穷举式交互在计算上难以承受,通常导致优化困难。 多任务场景下的任务感知不足: 现实世界的推荐系统通常涉及多个预测目标,但当前大多数方法将特征交互模块置于多任务学习层之前。这种“后融合”设计忽视了任务特定的特征依赖关系,并从根本上限制了多任务建模的能力。 为了应对这些限制,我们提出了信息流网络(INFNet),这是一个专为大规模推荐场景设计的任务感知架构。INFNet 将特征区分为三种标记类型:分类特征标记(categorical tokens)、序列特征标记(sequence tokens) 和任务标记(task tokens),并引入了一种新颖的双流设计,包含异构(heterogeneous) 和同构(homogeneous) 交替的信息块。 对于异构信息流,我们采用了一种带代理的交叉注意力机制(cross attention mechanism with proxy),以平衡的计算成本促进跨模态标记的高效交互。 对于同构信息流,我们设计了特定类型的门控代理单元(Proxy Gated Units, PGUs) 以实现细粒度的类型内特征处理。 在多个离线基准测试上的广泛实验证实,INFNet 实现了最先进的性能。此外,INFNet 已成功部署在一个商业在线广告系统中,在收入(Revenue, REV) 上取得了 +1.587% 的提升,在点击率(Click-Through Rate, CTR) 上取得了 +1.155% 的提升。
Relative Advantage Debiasing for Watch-Time Prediction in Short-Video Recommendation
论文链接:Relative Advantage Debiasing for Watch-Time Prediction in Short-Video Recommendation
组织:字节跳动
方向:时长预估、分位数时长、分布估计
摘要:观看时间(Watch time)在视频推荐平台中被广泛用作用户满意度的代理指标。然而,原始观看时间会受到混杂因素的影响,例如视频时长、流行度以及个体用户行为,这可能会扭曲偏好信号,导致推荐模型产生偏差。我们提出了一种新颖的相对优势去偏框架(Relative Advantage Debiasing framework),通过将观看时间与基于用户组和物品组(item groups)的经验参考分布(empirically derived reference distributions)进行比较来校正观看时间。这种方法产生了一个基于分位数的偏好信号(quantile-based preference signal),并引入了一种两阶段架构(two-stage architecture),该架构明确地将分布估计与偏好学习分离开来。此外,我们提出了分布嵌入(distributional embeddings) 来高效地参数化观看时间分位数,无需在线采样或存储历史数据。离线和在线实验均表明,与现有基线方法相比,该方法在推荐准确性和鲁棒性方面取得了显著提升。
Representation Quantization for Collaborative Filtering Augmentation
论文链接: Representation Quantization for Collaborative Filtering Augmentation
组织:北京大学
方向:
摘要:作为推荐系统中的核心算法,协同过滤(CF)算法不可避免地面临数据稀疏性问题。由于 CF 通过识别相似用户和物品来进行推荐,增强缺失的用户-用户和物品-物品同质连接是有效的。然而,现有方法通常仅限于通过重叠的交互邻居或相似属性与内容进行连接。这些方法受限于粗粒度、稀疏的属性数据,并且未能有效地从交互序列和属性中联合提取行为特征。为了应对这些挑战,我们提出了一种新颖的两阶段协同推荐算法 DQRec:基于分解的量化变分自编码器(DQ-VAE)推荐模型。DQRec 通过从交互序列和属性(即模式,例如用户的多方面兴趣)中联合提取行为特征来增强特征和同质连接。受向量量化(VQ)技术的启发,我们提出了一种新的 VQ 算法 DQ-VAE,它将预训练的表征嵌入分解到不同的维度,并进行量化以生成语义 ID。我们利用生成的语义 ID 作为上述提取的模式。通过将这些模式通过特征增强和连接增强整合到推荐中,系统丰富了潜在特征和显式特征,识别了模式相似的邻居,从而提高了信息传播的效率。在多个数据集上与基线模型的实验比较证明了所提出的 DQRec 方法的优越性能。
TBGRecall: A Generative Retrieval Model for E-commerce Recommendation Scenarios
论文链接: TBGRecall: A Generative Retrieval Model for E-commerce Recommendation Scenarios
组织:阿里
方向:生成式检索
摘要:推荐系统是现代电子商务中的关键工具,通过推荐相关商品为用户提供个性化体验。生成模型的最新进展在提升推荐系统性能方面展现出潜力;然而,这些模型在优化检索任务时存在局限性,主要源于其对自回归生成机制的依赖。传统方法引入了序列依赖性,阻碍了高效检索,因其本质上无法在单个请求会话中无位置约束地生成多个项目。 为解决这些局限,本文提出 TBGRecall,一个集成下一会话预测(Next Session Prediction, NSP)的框架,旨在增强电商场景中的生成式检索模型。该框架通过将输入样本划分为多会话序列(每个序列包含一个会话标记和一组项目标记),并针对检索场景的生成任务进行多项优化。在训练方法上,我们的流程结合了有限历史数据预训练与随机部分增量训练,显著提升训练效率,并凸显了数据时效性优于数据量的特性。 在公开基准测试及淘宝大规模工业数据集上的实验表明,TBGRecall 优于现有最先进的推荐方法,并展现出清晰的扩展规律(Scaling Law)趋势。最终,NSP 代表了生成式推荐系统在电商应用中的重大进展。
Leveraging Geometric Insights in Hyperbolic Triplet Loss for Improved Recommendations
论文链接: Leveraging Geometric Insights in Hyperbolic Triplet Loss for Improved Recommendations
组织:
方向:
摘要:近期研究表明,双曲几何在捕捉推荐系统中交互数据的复杂模式方面具有潜力。在这项工作中,我们提出了一种新颖的双曲推荐模型,该模型利用几何洞见来同时改进表示学习并提高计算稳定性。我们重新定义了双曲距离的概念,以释放其相对于传统欧几里得空间的额外表示能力,从而学习更具表达力的用户和物品表示。为了更好地捕捉用户-物品关系,我们构建了一种三元组损失(triplet loss),该损失通过数据几何驱动的成对交互项组合,对用户及其对应的偏好与非偏好选择之间的三元关系进行建模。我们的双曲方法不仅优于现有的欧几里得和双曲模型,还减少了流行度偏差(popularity bias),从而带来更多样化和个性化的推荐。
Is This News Still Interesting to You?: Lifetime-aware Interest Matching for News Recommendation
论文链接:Is This News Still Interesting to You?: Lifetime-aware Interest Matching for News Recommendation
组织:
方向:
摘要:个性化新闻推荐旨在提供与用户兴趣相符的新闻文章,作为缓解在线新闻平台信息过载问题的关键解决方案。尽管先前的研究通过改进新闻和用户的表征方式提升了兴趣匹配的效果,但以下与时间相关的挑战仍未得到充分探索:(C1) 利用已点击新闻的时效(age)来推断用户兴趣的持续性;(C2) 建模新闻因主题和用户而异的生命周期(lifetime)。 为了共同应对这些挑战,我们提出了一种新颖的**生命周期感知兴趣匹配框架(Lifetime-aware Interest Matching framework)**用于新闻推荐,命名为 LIME。该框架融合了三个关键策略: 用户-主题生命周期感知的时效表示法(User-Topic lifetime-aware age representation):捕捉新闻相对于特定用户-主题组合的相对时效。 候选感知的生命周期注意力机制(Candidate-aware lifetime attention):生成与时间对齐的用户表征。 新鲜度引导的兴趣优化机制(Freshness-guided interest refinement):在预测时优先考虑有效的候选新闻。 在两个真实世界数据集上进行的大量实验表明,LIME 在推荐准确性上持续优于一系列最先进的新闻推荐方法,并且其模型无关的策略显著提升了推荐精度。
Heterogeneous Influence Maximization in User Recommendation
论文链接:Heterogeneous Influence Maximization in User Recommendation
组织:腾讯
方向:用户推荐系统
摘要:用户推荐系统通过鼓励用户作为邀请者(inviters)与其他用户(被邀请者/invitees)互动,从而提升用户参与度,并可能促进信息传播。传统的推荐方法通常侧重于建模交互意愿(interaction willingness)。影响力最大化(Influence-Maximization, IM)方法则侧重于识别一组用户以最大化信息传播范围。然而,现有方法面临两个重大挑战:首先,推荐方法未能释放候选用户的传播能力(spread capability);其次,IM方法未能考虑交互意愿。 为解决这些问题,我们提出了两个模型:HeteroIR 和 HeteroIM。HeteroIR 提供了一个直观的解决方案,以释放用户推荐系统的传播潜力。HeteroIM 则弥合了IM方法与推荐任务之间的差距,在提升交互意愿的同时最大化传播覆盖范围(spread coverage)。 HeteroIR引入了一个两阶段框架来估计传播收益(spread profits)。HeteroIM则基于包含邀请者和被邀请者的反向可达(Reverse Reachable, RR)集的数量,逐步选择最具影响力的被邀请者进行推荐并重新排序(rerank)。RR集指的是能够通过传播到达目标节点的一组节点。 大量实验表明,HeteroIR和HeteroIM在p值<0.05的水平下显著优于最先进的基线方法。此外,我们已在腾讯的在线游戏平台部署了HeteroIR和HeteroIM,在在线A/B测试中分别获得了8.5% 和 10% 的提升。实现代码可在 https://github.com/socialalgo/HIM 获取。
ENCODE: Breaking the Trade-off Between Performance and Efficiency in Long-term User Behavior Modeling
组织:阿里
方向:长序列建模
摘要:长期用户行为序列蕴含着探索用户兴趣以提升点击率(CTR)的丰富价值。然而,从长期行为序列中准确捕捉用户兴趣,并满足在线服务系统快速响应的要求,是一项极具挑战性的任务。为满足这些要求,现有方法“无意中”破坏了长期序列建模的两个基本要求:R1) 充分利用整个序列以尽可能保留信息;R2) 从最相关的行为中提取信息,以保持学习到的兴趣与当前目标商品之间的高度相关性。在线服务系统的性能受到现有方法获取的不完整和不准确的用户兴趣信息的显著影响。 为此,我们提出了一种高效的两阶段长期序列建模方法,命名为基于高效聚类的两阶段兴趣建模(ENCODE),该方法包含离线提取阶段和在线推理阶段。它不仅满足了上述两个基本要求,而且在在线服务效率与精度之间实现了理想的平衡。具体来说,在离线提取阶段,ENCODE对整个行为序列进行聚类并提取精确的兴趣表示。为降低聚类过程的开销,我们设计了一种基于度量学习的降维算法,该算法能在新的特征空间中保留行为间的相对成对距离。而在在线推理阶段,ENCODE利用离线提取的用户兴趣来预测其与目标商品的关联性。此外,为确保用户兴趣与目标商品之间的相关性,我们在ENCODE的整个流程中采用了相同的相关性度量标准。 在工业和公共数据集上与最先进(SOTA)方法进行的广泛实验和比较,证明了我们提出的ENCODE方法的有效性和高效性。
Understanding Distribution Structure on Calibrated Recommendation Systems
论文链接:Understanding Distribution Structure on Calibrated Recommendation Systems
组织:
方向:
摘要:传统的推荐系统旨在生成包含与用户画像最相关或最相似物品的推荐列表。这些方法可能会产生忽略用户画像中较不突出领域的物品类型的推荐列表,从而损害用户体验。为解决此问题,校准推荐系统(calibrated recommendation system)提供了一种保证,即在推荐列表中包含代表性不足的领域。校准上下文涉及处理三种分布:第一种来自用户画像,第二种来自候选物品,最后一种来自推荐列表。这些分布是 G 维的,其中 G 是系统中的流派(genres)总数。这种高维特性需要一种不同的评估方法,因为传统的推荐系统是在一维数据空间中运行的。为此,我们实现了十五种模型来帮助理解这些分布的结构。我们在电影领域的三个数据集上评估了用户的模式。结果表明,离群点检测模型(outlier detection models)能更好地理解这些结构。校准系统创建的推荐列表在行为上类似于传统的推荐列表,允许用户同等程度地改变其偏好组别。
MUFFIN: Mixture of User-Adaptive Frequency Filtering for Sequential Recommendation
论文链接:MUFFIN: Mixture of User-Adaptive Frequency Filtering for Sequential Recommendation
组织:
方向:序列推荐、频域分析、周期建模
摘要:序列推荐(Sequential Recommendation, SR)旨在通过建模用户的序列行为来预测其后续的交互行为。近期研究探索了频域分析,该方法能有效建模用户序列中的周期性模式。然而,现有的频域序列推荐模型仍面临两个主要缺陷: 有限的频带覆盖范围:常常遗漏特定频率范围内的关键行为模式。 缺乏个性化频率过滤:对所有用户应用相同的过滤器,无视其不同的频率特征。 为应对这些挑战,我们提出了一种新颖的频域模型:用户自适应频率过滤混合模型(Mixture of User-adaptive Frequency FilteriNg, MUFFIN)。该模型通过两个互补的模块运行: 全局过滤模块(Global Filtering Module, GFM):处理整个频谱以捕捉全面的行为模式。 局部过滤模块(Local Filtering Module, LFM):有选择地强调重要的频带,同时不排除其他范围的信息。 在这两个模块中,均采用了用户自适应过滤器(User-Adaptive Filter, UAF),根据个体用户的独特特征动态生成用户特定的频率过滤器。 最终,通过聚合两个模块的输出,MUFFIN能够捕捉覆盖全频谱的多样化用户行为模式。在五个基准数据集上进行的广泛实验表明,MUFFIN在八个序列推荐模型中始终优于当前最优(state-of-the-art)的频域序列推荐模型。源代码可在 https://github.com/ilwoong100/MUFFIN 获取。
Clicks Versus Conversion: Choosing a Recommender’s Training Objective in E-Commerce
论文链接:Clicks Versus Conversion: Choosing a Recommender’s Training Objective in E-Commerce
组织:
方向:
摘要:在电子商务中,对产品推荐进行排序以优化高点击率(CTR)或高转化率(如加购率(ACR)和下单率(OSR,即浏览至购买的转化率))是常见实践。优化CTR看似是直接的选择:训练数据(即点击数据)易于收集且通常数量庞大;此外,CTR的应用远超电商领域,使其成为一种通用且易于实现的方案。然而,ACR和OSR更直接关联到商店的业务目标(如商品交易总额GMV)。 本文通过在线A/B测试比较了不同优化目标的效果。关键发现表明:在我们的商店中,优化OSR带来的GMV提升是优化CTR的5倍以上,且不会牺牲新品发现。结果还揭示了不同优化目标下特征重要性的差异,例如: CTR模型更依赖评分相关特征(如评分置信区间上限)和流量特征; ACR/OSR模型则更关注销售相关特征(如商品销售排名)和用户历史交互特征。 这一发现挑战了CTR作为“默认”优化目标的传统认知,并为电商推荐系统的目标选择提供了实证依据。
DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System
论文链接:DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System
组织:快手
方向:多模态嵌入、LLM对齐
摘要:语义ID(Semantic IDs)是通过量化多模态大语言模型(Multi-modal Large Language Models, MLLMs)的嵌入生成的离散标识符,使得在推荐系统中高效整合多模态内容成为可能。然而,它们缺乏协同信号(collaborative signals),导致与下游判别式(discriminative)和生成式(generative)推荐目标不对齐(misalignment)。最近的研究引入了各种对齐机制来解决这个问题,但其两阶段(two-stage)框架设计仍导致两个主要限制:(1) 对齐过程中不可避免的信息损失;(2) 在应用自适应对齐策略时缺乏灵活性,从而限制了对齐过程中的互信息最大化(mutual information maximization)。 为了克服这些限制,我们提出了一种新颖且灵活的一阶段(one-stage)双重对齐语义ID(Dual-Aligned Semantic IDs, DAS)方法,该方法同时优化量化(quantization)和对齐(alignment),在避免两阶段方法通常伴随的信息损失的同时,保留了语义完整性(semantic integrity)和对齐质量(alignment quality)。同时,DAS通过以下两种创新且有效的方法,实现了语义ID与协同信号之间更高效的对齐: (1) 多视角对比对齐(Multi-view Contrastive Alignment):为了最大化语义ID与协同信号之间的互信息,我们首先引入了一个基于ID的协同过滤(CF)去偏模块(ID-based CF debias module),然后设计了三种有效的对比对齐方法:双重用户到物品(dual user-to-item, u2i)、双重物品到物品/用户到用户(dual item-to-item/user-to-user, i2i/u2u)以及双重共现物品到物品/用户到用户(dual co-occurrence item-to-item/user-to-user, i2iu2u)。 (2) 双重学习(Dual Learning):通过对齐用户和广告的双重量化表示,构建的用户和广告语义ID实现了更强的对齐。 最后,我们进行了广泛的离线实验和在线A/B测试来评估DAS的有效性。该方法现已在快手(Kuaishou)App的多个广告场景中成功部署,每日服务超过4亿用户。
FuXi-𝛽: Towards a Lightweight and Fast Large-Scale Generative Recommendation Model
论文链接:FuXi-𝛽: Towards a Lightweight and Fast Large-Scale Generative Recommendation Model
组织:华为
方向:
摘要:自回归生成式推荐模型中扩展规律(scaling laws)的最新发现,为开发更大、更通用的推荐系统提供了可能性。然而,更大的系统也意味着更高的响应延迟和训练成本。为了加速训练和推理,我们研究了最近的生成式推荐模型 HSTU 和 FuXi-α,识别出两个效率瓶颈:相对时间注意力偏差(relative temporal attention bias)中的索引操作(indexing operations)以及查询-键注意力图(query-key attention map)的计算。此外,我们观察到自注意力机制中的相对注意力偏差(relative attention bias)本身也可以充当注意力图。先前如 Synthesizer 等工作表明,替代形式的注意力图也能达到类似的性能,这自然引出了一个问题:某些注意力图是否是冗余的?通过实证实验,我们发现使用查询-键注意力图可能会降低模型在推荐任务中的性能。 为了解决这些瓶颈,我们提出了一个适用于类 Transformer 推荐模型的新框架。一方面,我们引入了功能相对注意力偏差(Functional Relative Attention Bias, FRAB),它避免了原始相对注意力偏差中耗时的操作,从而加速了处理过程。另一方面,我们从原始的自注意力层中移除了查询-键注意力图,并设计了一个新的**无注意力令牌混合器(Attention-Free Token Mixer, AFTM)**模块。此外,通过将此框架应用于 FuXi-α,我们引入了一个新模型 FuXi-β。 在多个数据集上的实验表明,FuXi-β 在性能上优于之前的先进模型,并且与 FuXi-α 相比实现了显著的加速,同时仍然遵循扩展规律。值得注意的是,在大规模工业数据集上,FuXi-β 在 NDCG@10 指标上相比 FuXi-α 实现了 27% 到 47% 的提升。我们的代码可在公共仓库获取: https://github.com/USTC-StarTeam/FuXi-beta
Confounding is a Pervasive Problem in Real World Recommender Systems
论文链接:Confounding is a Pervasive Problem in Real World Recommender Systems
组织:Criteo
方向:
摘要:未观测混杂 (Unobserved confounding) 是指某个未测量的特征同时影响处理变量(treatment)和结果变量(outcome),从而导致因果效应估计出现偏差。这个问题困扰着经济学、医学、生态学或流行病学等领域的观察性研究。推荐系统 (Recommender systems) 利用完全观测的数据,理论上似乎不易受此问题影响。然而,推荐系统中的许多标准实践会导致已观测的特征被忽略,从而产生本质上相同的问题。本文将展示,诸如特征工程 (feature engineering)、A/B 测试 (A/B testing) 和模块化设计 (modularization) 等众多常见实践,实际上会将混杂引入推荐系统并损害其性能。本文提供了该现象的若干例证,并通过模拟研究加以支持,同时为从业者如何在真实系统中减少或避免混杂的影响提供了实用建议。
On User-side Fairness in Negative Sampling for Recommender Systems
论文链接:On User-side Fairness in Negative Sampling for Recommender Systems
组织:RMIT
方向:召回、负样本构建
摘要:推荐系统通常被训练以区分每个用户的正样本和负样本。负采样在选择信息丰富的负样本方面扮演着重要角色。由于正样本数据主要由少数活跃用户贡献,存在数据不平衡问题,负采样器可能因此受到影响,从而为活跃用户选择更具信息量的负样本。因此,参与度低的用户在训练数据中进一步被低估,可能导致推荐系统对其提供次优的服务。 在本文中,我们通过实证证明,对于最先进的负采样策略,活跃用户比非活跃用户获得了更准确的推荐,并且数据不平衡的程度影响了性能差异的严重性。 我们进一步表明,为每个正样本采样更多负样本所带来的性能提升,在不同用户群体之间并非均匀分布。通常,活跃用户从性能提升中受益,而非活跃用户可能遭受性能下降。 为了解决这些缺陷,我们提出了一种分组负采样比例设置(group-wise negative ratio setup),为非活跃用户使用适当较小的负采样比例,为活跃用户使用较大的比例。综合实验表明,我们提出的分组比例在用户侧公平性和性能提升方面优于单一的全局比例。
Benefiting from Negative yet Informative Feedback by Contrasting Opposing Sequential Patterns
论文链接:Benefiting from Negative yet Informative Feedback by Contrasting Opposing Sequential Patterns
组织:
方向:序列推荐、负反馈建模
摘要:我们考虑在序列推荐场景中同时从正面和负面反馈中学习的任务,因为这两种类型的反馈通常都存在于用户交互中。与此同时,传统的序列学习模型通常侧重于考虑和预测正面交互,忽略了在推荐中减少具有负面反馈的项目可以提高用户对服务的满意度。此外,负面反馈有潜力为更准确地识别用户的真实兴趣提供有用的信号。 在这项工作中,我们提出在独立的正面和负面交互序列上训练两个Transformer编码器。我们通过一个复合损失函数将这两种反馈类型纳入序列推荐器的训练目标中,该函数包括正面和负面的交叉熵损失,以及一个巧妙设计的对比项,该对比项有助于更好地建模对立的模式。 我们证明了这种方法的有效性,与最先进的序列推荐方法相比,它在提高真阳性指标(true-positive metrics)的同时,减少了错误推荐的负面项目数量。