详情页 A/B 最常失败的方式,是会上每个人点头说「有科学精神」,会下偷偷改三个变量还换了主图。真正该钉死的只有三件事:主指标是什么、最少要看到多大差异才敢信、跑多久、赢了之后怎么全量。下面用人话把样本量、周期和决策门槛串起来,不取代统计软件,只帮你和设计师、投流、老板讲同一句「停/继续」。各店后台实验工具与显著性定义以平台为准;独立站可对接自有分流与 事件回传。
一、主指标只选一个「北极星」
加购率、支付成功率、件单价往往会打架。建议每次实验在立项单上写清:若只能优化一个,选谁。B2C 标品常选成交或客单价;高决策成本品类可先选页面停留+加购。辅助指标可以报,但不触发上线决策,否则复盘会变成「这页赢了停留输了转化怎么办」的哲学题。
二、样本量:先问日访客,再谈显著
在脑子里把公式换成一句:基线转化越低、想检测的提升越小,要的人次越多。小店的坑是开跑七天后才发觉「日UV 只够在彩票里找信心」。开跑前用历史七日 UV 和基线 CVR 做粗算,若需要四周以上才到合理区间,要么缩小只测最敏感模块、要么提高流量位(如广告定向到同人群)。大促前冻结详情页大改,避免与活动流量搅在一起。
三、周期:至少跑满一个购买周期+一个周末
很多类目一周内有日型与周末型两拨人,三日结论常常是噪声。设最短观察窗时,把「大促/直播日」在日历上标红,能避开则避开。若必须叠在一起,在纪要里写「结果仅适用于大促环境」,别直接当常态全量。
四、决策阈值:提前写好「平手怎么办」
在实验开头就约定:优者上线、优但差距小于 X 点则保留老版以省开发、明显劣于对照则 24h 内回滚。别让「再跑一周」成为拖延默认项——那通常表示实验设计就太大了。
下一篇 017 谈站内与站外关键词的预算分配,与「流量从哪来」强相关,与「页上怎么说」是上下游。