Sitemap

Sitemap とは?

Google、Naver などの検索エンジンにサイトを包括的にインデックスさせるためのファイルである。基本的には URL が並んだファイルだと考えればよい。ボットはこのファイルを基にサイトを巡回する。

コンテンツのタイプや更新頻度などを指定できるが、最も重要なのは sitemap.xml のある位置である。sitemap.xml 以下のドメインの URL だけがクロールされるため、設置場所に注意する必要がある。基本的にはルートに置くのがよい。

Sitemap XML 形式

<?xml version="1.0" encoding="UTF-8"?>
<urlset>
  <url>
    <loc>https://www.devkuma.com/docs/java/static/</loc>
    <lastmod>2022-04-03T20:41:00+09:00</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
   </url>
</urlset>
タグ 必須/任意 説明
<urlset> 必須 全体を囲むタグで、現在のプロトコル標準を参照する。
<url> 必須
<loc> 必須 ページの URL。
最後にスラッシュを含める必要があり、値は 2,048 文字以下で指定する。
<lastmod> 任意 ファイルの最終更新日。
<changefreq> 任意 ページ更新頻度。
<priority> 任意 URL 優先順位。
0.0 ~ 1.0 の値を指定できる。
基本値は 0.5。

ページ更新頻度(changefreq)一覧:

  • always: アクセスするたびに内容が更新される
  • hourly: 1 時間に 1 回以下
  • daily: 1 日に 1 回以上
  • weekly: 1 週間に 1 回以上
  • monthly: 1 か月に 1 回以上
  • yearly: 1 年に 1 回以上
  • never: 定期的にクロールされる(更新しなくてもよいページ)

複数の Sitemap ファイルを使用する場合

URL が 50,000 以上になると、複数の Sitemap が必要になる。その場合、サイトマップインデックスファイルを作成し、サイトマップが複数あることをクローラーに知らせる。

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>https://www.devkuma.com/sitemap1.xml.gz</loc>
      <lastmod>2022-12-06T01:57:17+09:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>https://www.devkuma.com/sitemap2.xml.gz</loc>
      <lastmod>2021-01-01</lastmod>
   </sitemap>
</sitemapindex>
タグ 必須/任意 説明
<loc> 必須 Sitemap ファイル名
<lastmod> 任意 ファイルの最終更新日

参考