首页CID 知识库 › CID 归因技术

CID 归因技术:点击与订单的相关性打分

在 CID 投放链路里,归因要回答的问题是:这笔订单,究竟是不是那次广告点击带来的?算擎CID 的做法不是简单匹配,而是计算点击用户与订单用户之间的相关性,得到相关性系数,再按分档决定回传策略。

为什么归因是 CID 的核心难题

广告点击发生在媒体 App 里,订单成交发生在电商平台里,两边的用户标识体系互不相通。同一时间窗口内,可能有成百上千个"看起来相似"的用户点击过广告——把订单归给错误的点击,等于给媒体模型喂了错误的学习样本,后果会持续放大(详见下文"归因质量决定模型质量")。

相关性打分:把流量分成三档

算擎CID 对每一组"点击-订单"候选配对计算相关性系数,并据此分档处理:

分档含义处理方式
高相关基本可确定是同一个人直接归因并回传
中相关八九不离十,但可能存在少量相似用户择优归因
低相关大量相似用户点击过,无从查证保守处理或直接屏蔽

后验数据反复验证了一个结论:低相关档的流量质量真的很差。屏蔽掉这部分流量后,退货率立竿见影地下降,核心媒体位置的消耗占比明显提升。

屏蔽低质流量的连锁反应

屏蔽低质流量的价值远不止"少回传几笔垃圾订单",它会触发一条正向链路:

  1. 低质媒体位置的转化归零;
  2. 媒体对低质位置的转化率预估被持续下修;
  3. 低质位置进一步失去出量能力;
  4. 广告主的预算被结余出来,流向优质媒体位置。
关键在于:广告主的预算是所有媒体位置共享一份的。如果低质位置先把预算烧掉,优质位置后面想放量反而会撞上媒体的成本约束。先清掉垃圾流量,预算才能流向真正带来生意的位置——这才是屏蔽低质流量的真正杠杆。

全店归因与单品归因

按归因范围,CID 归因分为两类:

两类归因都在限定的时间窗口内完成匹配,窗口之外的成交不参与归因,保证归因结果的可解释性。

归因质量决定模型质量

归因的每一次回传,都是媒体模型的一个学习样本。这意味着:

回传一笔退货订单,模型就学到了一个"退货特征";想把它掰回来,大约需要 5~10 笔不退货的订单。否则模型会继续往爱退货的人群上投放,退货率持续走高。

这就是为什么算擎CID 在归因和回传上宁可严格、不肯放水——退货率直接挂钩广告主的钱,是比千展更敏感的指标。宁可少回传一单,也不让模型学歪。