如何筛选TOP 20%高频路径?
解读
面试官问“如何筛选TOP 20%高频路径”,核心想验证三件事:
- 你是否能把业务目标翻译成可量化的路径指标;
- 你是否熟悉国内主流埋点+数仓+可视化工具链,能快速跑通数据;
- 你能否用二八法则反向优化运营策略,而不仅仅是“算”出路径。
因此,回答必须体现“业务→数据→策略”闭环,且给出可落地的中文指标体系与SQL/BI实操关键词,让面试官一听就知道“这人来了就能干活”。
知识点
- 路径定义口径:Session 切割规则(国内通用30分钟无事件为一次新会话)、起止节点(如“启动App→完成下单”)、同源合并(连续相同页面/事件去抖)。
- 高频度量指标:路径出现次数(raw_cnt)、路径独立用户数(UV)、路径转化率(CVR)、路径贡献GMV。
- TOP 20%截取方法:
- 先按路径出现次数降序累加,取累计占比≥80%的最小头部集合;
- 再用UV≥100过滤“刷量路径”,防止机刷干扰;
- 最后按GMV贡献二次排序,确保高价值路径优先。
- 国内常用工具:埋点用神策/ GrowingIO,数仓用阿里云MaxCompute,可视化用Quick BI/网易有数,SQL函数用COLLECT_LIST+窗口函数做路径拼接。
- 合规红线:路径数据需脱敏,不含手机号、身份证等PII字段,并遵循《个人信息保护法》最小可用原则。
答案
“我会分四步锁定TOP 20%高频路径,并直接输出可执行的运营策略。
第一步,明确业务场景与节点。以电商促活为例,核心目标是提升次月留存,因此起点设为‘App启动’,终点设为‘再次下单’,中间所有事件按时间戳升序拼接成字符串,形成用户级路径。
第二步,数据清洗+口径统一。用30分钟窗口切Session,连续相同事件去重,并过滤掉爬虫UA和内部测试账号,确保路径干净。
第三步,计算路径频次与价值。在MaxCompute里用COLLECT_LIST(event_name) GROUP BY user_id, session_id拼路径,再按路径维度汇总raw_cnt、UV、GMV。接着用窗口函数SUM(raw_cnt) OVER (ORDER BY raw_cnt DESC)做累加,取累计占比≥80%的最小头部集合,即得到高频路径候选池。最后加UV≥100且GMV占比≥1%的门槛,剔除低价值路径,得到真正的TOP 20%。
第四步,策略落地。把TOP路径拆成公共前缀,发现‘首页→搜索→商详→加购→下单’占GMV 42%,但搜索→商详转化率仅18%。于是联动产品优化搜索词联想与商详页加载速度,两周后该路径转化率提升到26%,次月留存绝对值上涨3.4个百分点,验证路径筛选结果直接驱动业务增长。”
拓展思考
- 动态更新机制:TOP 20%路径会随活动、版本、季节变化,建议建立周级离线+日级实时双轨监控,实时侧用Flink CEP捕捉路径突变,离线侧用Airflow定时回刷,确保策略不过期。
- 分层运营:对TOP路径中不同人群(新客、老客、流失预警)打标签,分别推送差异化权益——新客给免邮券,老客给满减券,流失预警给专属客服,把路径价值吃干榨尽。
- 反向验证:每月做一次A/A测试,随机抽取10%用户保持原路径体验,对比实验组,确保优化收益真实可信,防止“数据自嗨”。