在迁移前应执行哪些SEO审计和备份操作?

解读

面试官问的是“迁移前”,既可能是域名更换、CMS 升级、HTTPS 改造、服务器迁移,也可能是整站重构。无论哪种场景,核心诉求只有两点:第一,确保迁移后搜索引擎对站点的识别不发生断层;第二,一旦出现排名或流量异常,能够 30 分钟内回滚并定位原因。因此,回答必须体现“可量化、可回溯、可回滚”三大原则,并给出国内主流工具(百度、360、搜狗、神马)的落地细节,而不是照搬 Google 方案。

知识点

  1. 全量 URL 采集与分类:区分可索引页、参数黑洞、死链、分页、翻页、孤岛页
  2. 状态码与 canonical 一致性:200/301/404/502 分布、canonical 指向、百度 MIP/AMP 对应
  3. 关键词-URL 映射表:TOP1000 关键词对应落地页、百度指数、当前排名、预估流量
  4. 资源文件指纹:CSS/JS/图片的 MD5、Last-Modified、CDN 节点、百度 MIP 缓存版本
  5. 结构化数据备案:面包屑、FAQ、视频、商品、B2B 黄页等 Schema 及百度智能小程序映射
  6. 内外链拓扑:内链层级、锚文本、nofollow 分布;外链 TOP500 域名、锚文本、是否已申诉降权
  7. 日志与蜘蛛池:最近 30 天百度蜘蛛、搜狗蜘蛛、360 蜘蛛、神马蜘蛛的访问频次、UA、IP 段、抓取异常
  8. 性能基线:FCP、LCP、TTFB、首屏时间(百度 MIP 标准 ≤1.5s)、移动适配得分、https 证书有效期
  9. 业务指标基线:自然流量、收录量、索引量、CTR、转化路径、热图、百度事件跟踪代码
  10. 回滚包:整站文件级备份(含 .htaccess、nginx.conf、robots.txt、sitemap.xml)、数据库全量、DNS TTL 调低预案、CDN 缓存刷新脚本、百度站长平台闭站保护申请入口

答案

迁移前,我会按“三步十二项”执行审计与备份,全部输出可 diff 的量化报告,并同步到 Git 私有仓库,确保 0 丢失、0 歧义、0 回滚风险。

第一步:资产盘点
① 用自研爬虫+百度站长平台“抓取诊断”跑完全站,导出状态码、canonical、title、H1、面包屑、结构化数据,生成“URL 身份证”CSV;
② 用百度指数 API+站长工具关键词接口,拉取近 90 天带来流量的 TOP1000 关键词,建立“关键词-URL-排名-预估流量”四维表;
③ 通过百度 MIP 校验工具、360 移动适配工具,记录所有资源文件(CSS/JS/图片)的 MD5 与 CDN 节点,防止迁移后文件指纹变化导致缓存失效。

第二步:基线锁定
④ 在百度、搜狗、360、神马四大平台分别下载“索引量”“抓取异常”“外链”三个报表,并截图保存,作为迁移后对比基线;
⑤ 用宝塔或阿里云日志服务拉取最近 30 天蜘蛛日志,统计每个 URL 的抓取频次、返回码、下载时长,输出《蜘蛛健康报告》;
⑥ 以百度统计+神策埋点,导出迁移前 7 天的自然流量、CTR、跳出率、转化路径,形成《业务基线报告》;
⑦ 用 WebPageTest 北京节点跑 5 次取中位数,记录 FCP、LCP、TTFB,并保存 HAR 文件,性能下降超过 10% 即触发回滚。

第三步:备份与回滚包
⑧ 整站文件级备份:代码、模板、robots.txt、.htaccess、nginx.conf、sitemap.xml、apple-app-site-association、小程序校验文件,全部打 tar 包并做双重 MD5 校验;
⑨ 数据库全量备份:MySQL 用 xtrabackup,MongoDB 用 mongodump,同时导出表结构及存储过程,备份文件上传至 OSS 并设置 7 天低频访问;
⑩ DNS 预调:提前把 TTL 调到 300 秒,准备 A 记录与 CNAME 双线路切换脚本;
⑪ CDN 缓存刷新脚本:基于阿里云 OpenAPI 封装,支持目录级、URL 级、全站级三档刷新,并记录返回 RequestId;
⑫ 闭站保护预案:若迁移超过 4 小时,立即在百度站长平台提交闭站保护,避免误判死链;同时准备 302 全局跳转回旧站的回滚脚本,确保 5 分钟内可恢复。

所有交付物统一命名格式:站点_日期_版本_内容,例如 seoexample_20240618_v2.1_url_inventory.csv,方便 diff 与责任追溯。

拓展思考

  1. 如果迁移涉及“中文域名”或“新老域名并存”,需提前在百度搜索资源平台提交“改版规则”,并准备 301 权重继承的阶梯式跳转矩阵,避免 302 或 200 双活。
  2. 对大型站点(千万级 URL),全量爬虫不现实,可采用“分层抽样”:先跑一级频道+30% 深层样本,再用百度“天级收录”接口推送剩余 URL,降低抓取压力。
  3. 迁移后 48 小时是黄金观察期,需每 2 小时跑一次“索引量差值监控”,一旦跌幅超过 5% 立即触发“蜘蛛日志热力图”二次诊断,快速定位是否因证书链缺失、TLS1.3 握手超时或 CDN 回源失败导致蜘蛛断流。