作業メモ
URL一覧を正規化して重複を見つける手順
URL一覧は、同じページでも表記が少し違うだけで別物に見えます。正規化ルールを決めてから、重複候補とクエリの意味を確認します。
同じページと見なす範囲を先に決める
クエリやハッシュを残すか消すかで、重複判定の結果が大きく変わります。
http/https と末尾スラッシュをそろえる
配布前の一覧では、見た目の表記ゆれを先に統一すると重複候補を見つけやすくなります。
クエリを消すか残すかを用途で決める
検索条件やUTMが意味を持つ場合は、削除前に内容を分解して確認します。
次にやること
1. URL一覧を正規化する
http/https、末尾スラッシュ、クエリ、ハッシュの扱いを決めます。
- URL一覧の重複・正規化チェック
表記ゆれをそろえて重複候補を確認します。
- URLエンコード・デコード
日本語や記号を含むURLの見え方を確認します。
2. クエリとUTMを分けて見る
クエリを削除する前に、必要なパラメータかを確認します。
- URLクエリパラメータ分解
クエリキーと値を一覧で見ます。
- UTMパラメータ解析
UTMの欠損や重複キーを確認します。
3. 用途に合わせて出力する
配布URLなのかsitemap用なのかで、残すURLを分けます。
- sitemap.xml生成
整理したURL一覧からsitemapを作るときに使います。
- UTM URLビルダー
配布用URLを作り直すときに使います。
詰まりやすい場面
- URL一覧の重複候補を配布前に確認したいとき
- sitemap用のURLリストを作る前に表記ゆれをそろえたいとき
- UTM付きURLと通常URLを同じページとして扱ってよいか迷うとき
まず開くツール
各段階で最初に開くものだけを並べています。
URL一覧の重複・正規化チェック
表記ゆれをそろえて重複候補を確認します。
URLクエリパラメータ分解
クエリキーと値を一覧で見ます。
sitemap.xml生成
整理したURL一覧からsitemapを作るときに使います。
必要なら見るページ
用語や周辺ツールが必要なときだけ使います。
- URL・マーケティングカテゴリ
UTM、クエリ、URL正規化の周辺ツールを見たいとき。