最佳实践是让过滤页面被索引还是禁止索引,为什么?

解读

国内主流搜索引擎(百度、搜狗、360、神马)对“过滤页/筛选页”态度趋同:它们默认把大量参数拼接的 URL 视为“低价值重复面”,容易触发清风算法、飓风算法或细雨算法中的“重复内容”“垃圾聚合”条款。面试时,考官想确认三点:

  1. 你能否第一时间识别过滤页与搜索页、专题页的差异;
  2. 你能否用正确技术手段控制抓取与索引;
  3. 你能否用数据论证“少量高价值过滤页”与“批量垃圾过滤页”的取舍逻辑,而非一刀切。

知识点

  1. 过滤页本质:同一列表按价格、颜色、地区、尺码等参数动态拼接,URL 呈无限组合,Title、H1、正文高度相似。
  2. 国内算法红线:
    • 清风 4.0:打击“虚假聚合”,无实质内容差异的筛选页会被降权。
    • 飓风 3.0:重复内容超过站点比例阈值,整站信任分下调。
    • 百度《搜索质量白皮书》:鼓励“可独立解决用户需求的页面”进入索引,其余建议屏蔽。
  3. 技术控制手段:
    • robots 写法:Disallow: /?filter 或 Disallow: /&sort*
    • <meta name="robots" content="noindex,follow"> 配合 canonical 指向主分类
    • 百度站长工具“参数处理”提交忽略参数
    • 主动 sitemap 只提交静态分类页与高价值筛选页(≤2 个维度)
  4. 数据验证指标:site 域名+inurl 过滤参数、索引量工具、抓取频次日志、收录后无点击比例。若 30 天内“有展现无点击”占比>70%,即判定低质量,应禁止索引。
  5. 例外场景:当筛选维度组合出“用户有稳定搜索量且站内 SKU≥20”的长尾需求(如“北京 三居 地铁房 500 万以下”),可单独做静态化、自定义 Title/Description、加图文说明,视为“专题”,允许索引并跟踪转化。

答案

标准做法:默认禁止索引,仅对“有明确搜索需求、内容差异度≥40%、SKU 充足”的极少数高价值过滤页做静态化后允许索引。原因:

  1. 避免无限参数造成蜘蛛黑洞,浪费抓取配额;
  2. 降低重复内容与稀薄页面比例,减少清风/飓风算法打击风险;
  3. 集中权重到主分类页与核心专题,提升整站信任分;
  4. 通过百度参数处理+robots 双重屏蔽,最快 1 个抓取周期即可清理已索引的低质过滤页,恢复主分类排名。

拓展思考

  1. 大型电商双 11 前常临时放出“价格区间+促销标签”的过滤页抢长尾,但活动结束即 404 并提交死链,避免长期污染索引。面试可补充“动态索引生命周期管理”思路。
  2. 百度 2023 年上线“智能聚合”实验,部分优质筛选页会被自动合并到搜索结果顶部的“聚合卡片”。未来策略可能从“全禁止”转向“结构化数据+实时质量评分”,需持续关注官方动态。
  3. 与产品经理沟通时,可把“禁止索引”包装为“节省服务器成本、降低重复商品曝光、提升用户决策效率”三方共赢方案,减少部门阻力,体现 SEO 的跨部门推动力。