若何创造品牌潜客？目标人群优选算法模型及实践解析

文章目录 [+]

1. 背景简介

全域营销（Uni-Marketing）计策是依托大阿里生态，以消费者运营为核心，在新零售体系下实现全链路、全媒体、全数据、全渠道的品牌大数据营销。
Uni-Marketing产品矩阵包括品牌数据银行、全域策略（策略中央）、全域传播（Uni-Desk）、全域运营（品牌号、聪慧门店、天猫营销产品）等。
传统品牌营销的痛点在于效果无法量化和追踪，而阿里的产品和数据闭环可以很好的办理这个问题。

若何创造品牌潜客？目标人群优选算法模型及实践解析若何创造品牌潜客？目标人群优选算法模型及实践解析智能家居

策略中央年货节投放海豹项目，通过大数据+算法的手段，对A品牌的目标人群进行剖析，建立人群优选算法模型，挖掘品牌目标潜客。
品牌A的年货节实际投放效果，算法优选人群比较基于业务履历利用规则圈选的人群，在“O->IPL”人群关系加深率指标上好47%，显示了人群优选算法的有效性。

（图片来自网络侵删）

2. 名词阐明

品牌消费者关系：Opportunity（机会）、Awareness（认知）、Interest（兴趣）、Purchase（购买）、Loyalty（忠实）。

人群关系加深率：衡量品牌营销效果的直接指标。
“O->I”人群关系加深率，即机会人群到兴趣人群的转化率。

品牌数据银行：从“领悟、剖析、激活”三个纬度实现品牌消费者数据资产的管理和增值，即品牌消费者数据资产的高效梳理、消费者全链路的透视剖析、末了到多元营销场景的运用，包括阿里的电商、娱乐和营销做事矩阵。

品牌策略中央：以办理“机会在哪里”和“如何增长”为目标，赋能品牌开拓买卖策略，实现策略的可运用、可验证、可优化。
功能包括市场概览与细分、竞争与得失落剖析、消费者细分与多维洞察、人群放大与优选等，可用于新品上市、品类拉新、品类发展、品牌升级等场景。

3. 项目目标

基于策略中央的品牌人群定向，与程序化广告的不同之处在于，要根据品牌方的营销需求（包括目标、渠道、韶光和预算）产出特定规模的目标人群，进而再针对性地营销投放。

这次实践即以年货节拉新为目标，找到指定规模的潜在机会人群或者认知人群，通过营销投放将其转化为品牌兴趣人群和已购人群，从而提升品牌消费者资产。

4. 业界方案

业界干系方案紧张与程序化广告中人群定向干系，方法基本都是Look-alike人群扩散，详细有以下几种：

1）标签扩散：根据已有目标用户画像，给用户打各种标签，再利用标签找到机会人群。

2）基于标签的协同过滤：在标签扩散的根本上，采取基于用户的协同过滤算法，找到与种子人群相似的机会人群。

3）基于社交关系的扩散：以具有相似社交关系的人也有相似的兴趣爱好/代价不雅观为条件假设，利用社交网络关系进行人群扩散。

4）基于聚类的扩散：根据用户画像或标签，采取层次聚类算法（如BIRCH或CURE算法）对人群进行聚类，再从中找出与种子人群相似的机会人群。

5）目标人群分类方法：以种子人群为正样本，候选工具为负样本，演习分类模型，然后用模型对所有候选工具进行筛选。
涉及PU Learning的问题。

5. 技能方案先容

根据项目目标，我们制订了“种子人群聚类细分+聚类人群扩散”和“多方向人群扩散+人群分类优选”的两种方案。
由于聚类分群属于无监督学习且分群效果不随意马虎评估，因此选择后者优先履行。

方案整体流程如下图所示：

5.1 多方向人群扩散

在人群扩散方向上，我们探索了6类方向，并在每个方向下挖掘有效特色，通过白盒条件筛选和黑盒模型预测的办法进行人群扩散。

5.1.1 兴趣偏好方向

采取特色值TGI和TA浓度2个指标，挖掘了4个特色中与品牌干系的特色值，并根据特色值的全网覆盖量设定TGI和TA浓度阈值，进行白盒扩散。
TGI指标衡量了特色值在品牌人群中的显著性，TA浓度则衡量了特色值在品牌人群中的覆盖率，因此二者共同考虑才能筛选出有效的人群扩散特色值。

5.1.2 干系品类方向

1) 主营类目剖析：根据品牌在线商品数和发卖额打算筛选主营类目，并得出主营类目权重。

2) 干系品牌剖析：根据brand-user关系矩阵，采取Jaccard相似度打算干系品牌及干系分。
相似度打算公式如下：

3）干系类目剖析：根据线上user-cate购买行为，通过Association Rule Mining挖掘干系类目，利用confidence指标筛选类目并作为干系分，然后经由类目关系的二度扩散得到终极干系类目结果。
类目扩散公式如下，个中表示类目k：

5.1.3 竞品人群方向

1)竞品剖析：当前品牌主营类目中，市场份额top10的其他品牌。

2)人群流转剖析：剖析创造品牌新增人群中，有较大比例来自竞品，解释选择该方向进行扩散是可靠的。

3) 竞品人群转化模型：以来自竞品的人群为目标，挖掘用户在竞品的AIPL状态、退款、退货、评分、评价等特色，演习竞品人群转化模型。
通过模型对竞品人群进行转换预测，实现人群扩散。

5.1.4 搜索人群方向

1) 搜索关键词：从勾引到品牌成交的搜索词中，综合考虑搜索词是否充分竞争以及本品牌在搜索词上是否有上风，实现品牌拉干系的搜索词创造。
公式如下，个中E表示关键词勾引成交的类目信息熵，

表示关键词勾引成交额，

表示关键词勾引到品牌的成交额：

2）搜索人群扩散：近15天内搜索了kwords并点击了品牌主营类目的用户。

5.1.5 流失落人群方向

对付之前属于品牌人群而现已流失落了的用户，也进行扩散召回，包括近半年从IPL状态流失落的用户和近1个月从A状态流失落的用户。

5.1.6 同年夜大好人群方向

基于用户的向量表示，可以直接打算用户与用户直接的相似度，从而得到种子用户最相似的topN个用户。
用户表示的方法有多种，例如：

a) 用户偏好的类目向量、品牌向量组合。

b) 将user-item表示为二部图，基于graph embedding方法天生用户向量。

5.1.7 人群扩散汇总

终极6个方向的品牌扩散人群汇总去重，作为人群优选模型的输入。

5.2 目标人群优选模型

没有历史投放数据，是这次项目面临的一个寻衅。
我们通过演习模型来区分目标人群和非目标人群。

5.2.1 评估指标

演习集的正负样本，分别从品牌已购人群和其他品牌的人群中采样得到。
从中演习的分类模型，可以较好的区分品牌目标人群和全网其它人群（大都和目标人群相距较远），但对区分和品牌目标人群相距不远的扩散人群则并非同样有效。

因此，直策应用传统的分类指标，只能评估模型在演习集上的效果，不能准确评估其在扩散人群上的分类效果，须要设计新的评估指标。

PredictTA TopNPrecision指标由此而来，表示优选的TopN人群中品牌目标人群的占比，该指标越大解释模型预测效果越好。
我们通过比拟该指标在不同模型上利用不同topN值的值，验证了它的同等性；并设计NewTA topN Recall指标，即优选人群在之后一段韶光品牌新增目标人群的占比，验证了它的精确性。

上图中，紫色框表示品牌目标人群即种子人群，蓝色框表示模型优选出的TopN人群，它与种子人群有小部分交集，交集占蓝色框的比例即为PredictTATopN Precision。
绿色框表示一周内品牌实际新增人群，与蓝色框的交集为预测准确的人群，交集占绿色框的比例即为NewTA topN Recall。

对付有效的算法模型，PredictTATopN Precision指标随着TopN的减小而增大。
两个不同的算法模型，PredictTA TopN Precision指标在不同TopN取值上的表现是同等的，解释该指标的稳定性。
以A品牌为例，其同等性验证结果如下图所示：

5.2.2 模型演习

以品牌目标人群为正样本，从全网其它品牌的人群中随机选负样本，经由数据预处理、归一化、序列化编码后，演习并优化人群优选模型。

1）样本选择

a. 正样本选择：对付线上市场份额大的品牌而言，直接用品牌已购人群即可。
但对新品牌或者线上市场份额小的品牌，已购人群可能很小，这时就须要对正样本进行扩充，比如加入兴趣人群、加入与品牌定位相似的其它品牌的人群。

b. 负样本选择：默认从全网其它品牌的人群中随机采样，但创造全网人群中特色缺失落的情形比较多，负样本集离扩散人群比较远，因此实验了从全网其它品牌的已购人群中采样，PredictTA TopN Precision（N=300万）指标绝对值有0.8%的提升。

2）特色工程

a. 数值型特色离散化。
年购物天数、近30天订单数等特色进行等间隔散，提高模型稳定性和效果。

b. 列举型特色值筛选。
汽车型号、收货省份等特色长尾分布非常明显，筛选出与目标品牌干系的特色值。

c. 多值特色处理。
偏好品牌、偏好类目这样的特色，一个用户可以同时有多个特色值。
以品牌A品牌为例，我们在b步筛选的根本上，比拟了只保留偏好值最大的特色、只保留品牌最干系的特色、保留品牌干系的多个特色3种不同的处理方法，效果如下：

d. 特色编码。
紧张采取one-hot编码办法。

e. 稀疏特色embedding。
对付类目id，品牌id这种高维高稀疏性的特色，直接将其作为分类模型的特色会影响终极的模型效果，为此，我们借鉴word embedding的思路，将用户过去一段韶光内对类目（或品牌）的行为序列作为doc，将类目（或品牌）本身作为word，基于全网生动用户的行为序列（doc凑集）演习类目（或品牌）的embedding表示。
详细而言，我们将类目（或品牌）编码为100维的低维稠密向量，并将其作为预测特色用于模型演习。

f. 特色选择。
首先利用全部特色进行模型演习，然后根据特色主要性程度筛除部分尾部特色，重新演习模型，通过比较模型的PredictTA TopN Precision指标确定这次特色选择是否更好。

3）演习模型

a. LR模型。
利用逻辑回归作为baseline的算法，除了模型大略随意马虎理解外，还有个好处是可以得出特色和特色值的主要性。

b. RF模型。
对随机森林模型的实验效果并不理想，在相同的样本和特色上Precision和AUC指标均比LR低，且特色主要性结果只能到特色粒度不能到特色值粒度，因此不再利用。

c. PS-SMART。
基于PS架构的GBDT算法模型，决策树弱分类器加上GBM算法，具有较强的非线性拟合能力，在运用中比较其它两种算法模型效果更好。
因此选择PS-SMART作为终极的算法模型，并对丢失函数、树的个数深度、正则系数进行调优。

模型与特色干系比拟结果如下表：

5.2.3 模型预测

利用演习好的人群优选模型，对5.1节中产出的扩散人群进行预测打分，筛除预测分数小于0.5的人群，再根据拉新的目标过滤品牌现有IPL人群。

5.3 年货人群模型

这次品牌投放需求附近春节，与年货的干系性很大。
虽然可以用最新的样本数据演习日常的目标人群优选模型，但人群扩散方向和干系特色并非针对年货场景而挖掘的，因此不能有效捕捉出于屯年货动机的消费需求，须要针对年货场景单独建立一个人群模型进行预测。

但由于年货场景与日期韶光高度干系，须要用到去年春节期间品牌干系的人群数据，与日常模型差异较大，未便利合并，须要单独建模。

5.3.1 品牌干系年货类目

1) 年货类目挖掘：统计春节期间包含“年货”的搜索词所勾引点击的类目数据，再由运营同学根据业务履历筛选出部分与年货干系性较强的类目，从而得到二级类目粒度的年货类目数据。

2) 品牌干系年货类目：根据春节期间领悟不同行为的“用户-类目”矩阵，通过I2I算法打算年货类目的干系性，进而得到品牌主营类目干系的年货类目及其干系分。

5.3.2 年货人群特色

1) 人群属性特色：同日凡人群优选模型一样，包括用户人口根本属性、人口预测属性等。

2) 人群偏好特色：同日凡人群优选模型一样，包括与目标品牌干系的偏好品牌、生活标签、偏好类目、及偏好品牌等特色。

3) 品牌主营类目行为特色、品牌干系年货类目行为特色。
包括有行为的干系年货类目id、类目干系性等特色。

5.3.3 年货人群模型

1) 样本选择：根据投放韶光的农历日期，选取去年当日前1个月有行为的用户做样本。
个中以去年当日到元宵节期间转化到品牌PL状态的用户为正样本，随机采取同等数量的其他用户为负样本，演习年货人群模型。

2) 模型演习：基于日凡人群优选模型的履历，同样采取PS-SMART算法进行模型演习、优化、及特色主要性剖析。

3) 模型预测：圈选投放日期前1个月对品牌主营类目及干系年货类目有行为的用户，利用年货人群模型进行预测，去除预测分数小于0.5的用户，根据拉新目标去除品牌现有IPL人群。

5.4 目标人群模型领悟

根据日凡人群优选模型和年货人群模型的PredictTA TopN Precision指标，确定目标人群中2个模型优选结果的占比，终极筛选出指天命量的投放人群，导入数据银行，供做事商同步到DMP进行品牌广告投放。

5.5 投放效果追踪

品牌A投放案例，算法优选年货人群（A人群包），做事商通过策略中央找出品牌A购买人群同时购买的年货类目，选取买了对应类目的人群（A人群包），分别在钻展投放。
个中算法优选人群在“O->IPL”人群关系加深率指标上比较高47%，拉新转化效果显著。
算法优选人群内部，年货模型转化率最低，稠浊模型转化率最高，解释在春节期间品牌A的目标人群与日常目标人群特色比较附近，熟年货囤零食需求的日常目标人群在春节期间转化率最好。

6. 寻衅与应对

6.1 项目韶光周期短

因此我们优先担保模型目标与业务目标的同等，韶光上做到最新，对投放渠道则没有研究和优化。

6.2 无历史反馈数据

品牌人群优选模型，由于没有品牌投放历史，不能从用户的历史投放反馈中来学习品牌人群特色。
尤其是不能获取大量直接的负样本，只能以随机人群来代替，在样本选择上还有很大的提升空间。

6.3 无历史属性特色

年货人群模型和韶光紧密干系，但由于存储周期的缘故原由，只能获取用户去年的行为特色，而无法获取去年的属性和偏好特色，只能用近期的属性和偏好特色来代替，在特色实效性上也有较大提升空间。

6.4 主要的稀疏特色

模型利用的特色中有较多的稀疏特色，这些特色的特色值呈长尾分布，全部利用会引入很多噪声影响模型效果，只选高频特色又会丢失较多信息，为此我们采取特色值的TGI和TA浓度两个指标综合筛选，达到保留干系特色值、减少噪音和信息丢失的目的。

6.5 有效的评估指标

也是由于无历史反馈数据，导致用于优选的扩散人群与演习模型的人群分布有较大差异，纯挚的AUC、Precision等指标不能准确衡量优选模型在扩散人群上的效果，为此我们设计并验证了PredictTA TopN Precision评估指标，有效辅导了模型的优化。

7. 总结与展望

针对品牌目标人群定向，这次实践的人群扩散+优选的算法流程、人群优选/年货人群模型、及提出的PredictTA TopN Precision评估指标是非常有效的。
后续优化方向，包括前面寻衅中提到的基于用户反馈数据的样本优化，须要大量的投放反馈数据；用户历史属性和偏好特色优化，须要存储更多的历史特色数据；稀疏特色的优化，可通过深度学习方法将稀释特色映射到稠密特色空间实现；用户在生活办法/消费生理方面的embedding特色，对付人群优选非常有用，多任务学习是不错的实现办法。

本文作者：云鸣