grsytools.jp

手元の作業をブラウザで処理する

作業メモ

URL一覧を正規化して重複を見つける手順

URL一覧は、同じページでも表記が少し違うだけで別物に見えます。正規化ルールを決めてから、重複候補とクエリの意味を確認します。

同じページと見なす範囲を先に決める

クエリやハッシュを残すか消すかで、重複判定の結果が大きく変わります。

  • http/https と末尾スラッシュをそろえる

    配布前の一覧では、見た目の表記ゆれを先に統一すると重複候補を見つけやすくなります。

  • クエリを消すか残すかを用途で決める

    検索条件やUTMが意味を持つ場合は、削除前に内容を分解して確認します。

次にやること

1. URL一覧を正規化する

http/https、末尾スラッシュ、クエリ、ハッシュの扱いを決めます。

2. クエリとUTMを分けて見る

クエリを削除する前に、必要なパラメータかを確認します。

3. 用途に合わせて出力する

配布URLなのかsitemap用なのかで、残すURLを分けます。

詰まりやすい場面

  • URL一覧の重複候補を配布前に確認したいとき
  • sitemap用のURLリストを作る前に表記ゆれをそろえたいとき
  • UTM付きURLと通常URLを同じページとして扱ってよいか迷うとき

まず開くツール

各段階で最初に開くものだけを並べています。

URL一覧の重複・正規化チェック

表記ゆれをそろえて重複候補を確認します。

URLクエリパラメータ分解

クエリキーと値を一覧で見ます。

sitemap.xml生成

整理したURL一覧からsitemapを作るときに使います。

必要なら見るページ

用語や周辺ツールが必要なときだけ使います。