购房方案挖掘的探索与实践

见贤思齐 · 发表于 2024-10-10 22:55:23

购房方案挖掘的探索与实践购房方案挖掘的探索与实践李嘉晨、刘思明贝壳产品技术贝壳产品技术 “贝壳产品技术公众号”作为贝壳官方产品技术号，致力打造贝壳产品、技术干货分享平台，面向互联网/O2O开发/产品从业者，每周推送优质产品技术文章、技术沙龙活动及招聘信息等。欢迎大家关注我们。 242篇内容 2020年11月27日 18:18 1 背景线上模式中，准确的理解用户的需求偏好，是进行供需撮合的必要前提。从线上服务的角度看，可基于对用户偏好的理解进行可行化服务，从而提出对偏好挖掘覆盖率与准确率的要求。进入到线上线下联动的业务模式，将基于线上数据生成的用户偏好理解，低失真&可解释的传递给线下服务环节，提升服务的连贯性，是偏好理解的另一关键点。因用户偏好表达的重要性，工业界不断研究探索用户需求偏好理解这一命题，并在近些年来取得了长足的进展。但工业界的探索方向，与房产场景的用户偏好理解有所差异。研究主要聚焦在以准确性为目标的方法学探索上，不可否认，这一方向对于常规线上场景有较强的实践意义。但其存在一个较为明显的差异，即“偏好本身不作为输出目标，而作为目标的影响因素“ 因此对于偏好表示本身的可解释性，没有强要求。这使得偏好挖掘结果很难与专家经验结合，进而从线下角度看应用有局限性。大量实践聚焦于定长用户偏好枚举分布的挖掘，即更精准的预测用户单维偏好与交叉偏好，这样的研究方向在部分场景上是成立的，如借款用户对额度、利率、账期的偏好。但在房产类复杂Item场景上，基于供给局限与用户的承受能力，购房往往只能关注几个属性，而并非全部，且所关心属性在用户间有明显差异。鉴于此，本文尝试讨论用户偏好的本质与数学模型，进而提出一种基于“供给筛选”的挖掘思路，该方法对于“算法下游”与“人工下游”的信息拉平以及线上信息向线下的有效传递，有重要的实践价值。2 什么是用户购房方案？2.1 用户购房关心所有房屋属性么？我们思考一个最典型的用户偏好输入场景“房源列表筛选”，用户往往仅会筛选少数几个维度，而非全部。其所筛选的维度，反映了用户关心的属性。分析发现，用户筛选属性的长度存在较为明显的差异。我们思考，用户的偏好不仅需要反应在对不同枚举值的倾向，也应表达在用户更加关心哪些属性，从而将用户偏好挖掘转化为两个子问题：用户关系的属性是什么用户关心的属性枚举值是什么2.2 用户不在意容积率，那用户交互房源产生的容积率分布如何理解？这里我们要引入“主动偏好”和“被动偏好”的概念：主动偏好：影响用户决策的属性被动偏好：由于主动偏好对供给筛选后浏览的副产品举个例子：千万别墅的容积率普遍低，不代表用户的偏好是低容积率。基于以上两个点，我们将具有不定长与多峰特点的主动偏好组合，称为用户购房方案。3 定长组合偏好挖掘方法“定长偏好”需要先验的确定用户偏好维度数，例如用户价值偏好挖掘、居室偏好挖掘或价格居室偏好挖掘。用户ID偏好偏好值001小区偏好天通苑 0.3,回龙观0.2,智学苑0.2……001价格偏好300万 0.7,500万0.2 ……此类偏好挖掘，可以以用户与房源的交互行为作为输入，即从“表现”推断偏好，基于该思路，我们可以借鉴成熟的工具实施，下面我们讨论两种常见思路。3.1 基于线性加权的用户偏好挖掘简述：遵循行为越多，越近，越重，则交互房源属性约为偏好。因此将其转化为，基于行为量、时间与行为类型的线性加权问题。优点：开发简单，确定性强，可理解，处理高维偏好不需要特殊处理，适合做Baseline，同时天然用户粒度属性各枚举值间可比。存在问题：行为权重较难处理，如先验的给出行为权重与时间权重，基于实验预先给出，构建目标函数做最优化求解等，时间成本比较高。另一方面，在时间的表达上，基于统计的方法也有较大的限制，如最优化时间衰减方式问题上，确定衰减函数形式的工作。3.2 基于有监督模型的用户偏好挖掘简述：抽象目标函数，将用户表达作为输入，将其偏好的外显行为作为标注，比如房产场景的成交，进而将其转化为有监督问题。对于高维偏好可以基于Seq-Rec思路，在模型中输入用户表达与偏好表达，输出用户和属性Pair的偏好度。优点：相对于线性加权版本，不需要给出先验权重，所有需要的参数都可以通过监督学习求解。优化的上界比较高，可以在用户表达上做深耕，比如叠加时序表示，注意力机制等。存在问题：从成本上，高维与低维偏好需要用两套模型，开发的人力成本较高，高维属性的挖掘过程中，对样本的覆盖情况，尤其对偏好外显行为的覆盖有较强的要求。3.3 “定长编码”的不足点无法直接回答用户关心的偏好维度，直接计算N维偏好会导致用户的“被动偏好”与“主动偏好”混杂，偏好的挖掘过程中混杂了供给侧因素。通过先求取1-N维交叉属性的联合分布，再进行排序的思路，涉及到高维偏好时计算量较大，离线与在线计算成本较高。叠加前置算法进行组合的识别，再挖掘联合分布的方法，依赖主动偏好强相关行为的量与覆盖情况，这导致需要在提升覆盖率的方向上投入较大成本。用户ID偏好组合偏好值强度001小区价格小区：天通苑价格：600万0.7002环线价格面积环线：4环地铁价格：500万面积：80平米0.34 那么如何挖掘“购房方案”？4.1 从目标入手，“购房方案”需要输出什么？用户敏感的偏好组合集用户各个敏感偏好组合的偏好值多个购房方案需要基于强度用于排序4.2 购房方案挖掘的问题抽象我们认为，用户与房源发生如点击浏览等交互，是用户购房偏好对供给侧房源筛选的结果这一假设，我们提出假设，对于满足用户需求的房源，即对于用户购房方案筛选后的供给房源集，用户的访问是随机无偏的，因此，我们进行如下抽象：找到一组局限条件，使得限定后的用户访问集合为同限定下的供给集合的无偏采样。各偏好组合筛选后的房源集的和应近似用户全部房源集合，即认为用户的行为能被方案集解释。4.3 购房方案挖掘方法我们提出一种基于树的方法，通过分裂过程选择最优的“构成方案”的属性加入购房方案中，极大化偏好组合筛选下的用户访问房源集合与供给集合的相似度。4.3.1 流程简述输入用户访问房源集合I与供给房源集合S，搜索属性P与属性值p使得用户访问房源集合中属性P=p的房源子集与供给房源中属性P=p的房源子集相似度最大。将符合条件的I与S子集放入左子树，其他放入右子树。将此分裂过程递归执行，直至触发分裂抑制条件。以上方法生成多条由分裂点组成的“属性组合”，此时各属性组合则为用户的购房方案。对各“购房方案”产生的IS集合基于相似度计算强度后，即获得我们需要的带强度用户偏好组合集。4.3.2 算法核心模块- 分裂点搜索模块树分裂点过程，从业务角度看是寻找用户在前置局限条件下，能使其访问与供给侧集合一致的属性的过程。因此分裂模块的问题可以抽象为，添加何种局限条件，能使得用户访问房源集合与供给集合的相似度提升最大。分裂节点搜索方法可以借鉴大量历史研究，如精准贪心、近似算法等。我们将“分列属性”分为两种形式，若属性允许有连续多值时为“区间分裂方法”模式，仅允许取一个离散值时为“留一”分裂模式。留一分裂：该方法较适用于非序数特征，例如地铁线属性，分裂规则为是否’1号线’，满足筛选规则的集合走左子树，不符合规则的进入右子树。使用此类方法分裂的属性，在一条路径中只能被使用一次。区间分裂：该方法适用于连续特征或存在序数关系的离散特征，如价格面积等，分类规则为是否大于某一枚举，满足筛选规则的集合走左子树，不符合规则的进入右子树。使用该树分裂，一条路径中最多被使用两次，以形成封闭空间。- 相似度计算模块用于对两个房源集合的相似度进行计算，相似度计算逻辑可以从空间、概率等角度进行思考。空间角度可从度量多维空间内簇相似度角度出发，概率角度可从度量多维分布相似度角度出发，同样也可以将房源集合作为文档通过NLP的角度进行相似度度量。相似度计算模块从目的出发有两部分要求。每一次分裂进行空间切割的目的，是寻找能使得相似度提升最大的属性与枚举值。因此相似度模块需要实现不同增量局限所产生集合间的可比性，如对枚举值连续与离散的对比，高维低维可比等。预剪枝的环节，这对相似度计算的值分布有要求，即相似度的度量精度不应受到外力的影响，同时易于叠加预剪枝惩罚项。- 分裂抑制模块从业务角度看，分裂抑制模块的目的是抑制通过应用全部枚举，生成尽可能小的房源子集，来最大化“相似度”的动力。从性能角度看，目的是减少分裂次数，进而降低复杂度。从算法稳定性角度看，用户的访问有随机性，导致用户交互集不完全满足供给侧无偏抽样。有效的分裂抑制能起到设立容差的作用，忽视随机性带来的分布差异，这一能力在少行为用户与较深度分裂的情况下尤为重要。- 用户聚类模块房产场景用户行为稀疏，进而导致用户访问房源集较小，分裂过程会遇到两个问题。用户交互房源集随分裂快速耗尽导致无法有效的进行相似度比较。少量交互房源，导致分裂结果置信度较低。该问题在定长与非定长偏好组合算法中都存在，导致难以处理大量浅行为用户。针对此问题，我们提出用户聚类这一模块，将相似的用户聚成一类，用户房源集合合并，我们称其为用户类。进而通过聚合算法为少行为用户，匹配较为相似的深度用户，从而提升少行为用户的挖掘效果。离线版本产出速度与用户量线性相关，对亿级用户量上的工程提出挑战，事实上，偏好组合量级远小于用户量级，预先从房源集合相似度角度以及用户角度对用户进行聚类，从而对用户类进行偏好组合挖掘，能有效较低样本量，提升计算速度。既然都是找相似，是否可以用相似度模块来代替？如果用户的偏好只能被房源交互所表达，那么微改动后复用相似度模块是可性的，尤其是相似度计算模块天生要在相较于供给侧而言用户交互侧房源较少这样的不均衡场景下进行。但前置的假设是可以讨论的，反应用户偏好的不仅有用户交互的房源，用户侧本身的特征也可以被用来表示偏好以挖掘相似度，进而我们可以用独立的框架来做用户间相似度表达。4.3.3 购房方案挖掘的效果评价我们希望，用户成交房源的属性组合，落在强度最大的“购房方案”中。因此在个体上我们设置效果评价指标为用户成交房源，所在方案强度排序所处分位数。从群体角度看，通过用户平均分位数，即反应成交房源所在用户购房方案排序的均值，可衡量算法在群体角度的效果。5 总结与展望本文分享了一种“购房方案”的挖掘方法，该方案在物料属性较多，供给局限明显的场景相对于传统定长偏好挖掘方法，能更准确的理解影响用户消费决策的因素，进而更好的在线上与线下环节，为客户进行物料匹配等定制化服务。该方法我们也在从中台角度进行效果的优化，在下游角度适配更多场景，并探索如何支持下游场景的“方案局限”，希望文章对大家有所帮助。预览时标签不可点策略&算法9策略&算法 · 目录#策略&算法上一篇一文带你了解贝壳智能户型系统——FrameX下一篇HyperLogLog原理及Redis实现分析关闭更多小程序广告搜索「undefined」网络结果

		自动登录	找回密码
密码			会员注册