简单的示例
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.wdzzz.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
XML格式的sitemap文件,有以下三种必选标签:
文件由<urlset>包裹,且必须在<urlset>中声明命名空间。
每个URL对应一个<url>标签。
每个<url>中需包含一个<loc>标签。
以上示例中,第一行为XML文件声明,其余标签为站点地图的规范标签,定义在 http://www.sitemaps.org/schemas/sitemap/0.9命名空间下。除了以上说明的三个必选标签外,其余标签都是可选标签。可选标签的支持情况依赖每个搜索引擎自身的实现,例如Google不支持changefreq和<priority>。
另外需额外注意的地方:
文件需使用UTF-8编码。
标签内容需进行实体转义,后续会详细介绍。
文件中所有<loc>指定的网址必须和sitemap文件保持同一域名同一目录。例如都以www.wangwl.net开头或者都以sub.wangwl.net开头。后续会详细介绍。
标签元素定义
<urlset> - 必选,作为根元素包裹文件以及声明命名空间。
<url> - 必选,对应代表网站中的一个资源。该标签是唯一的二级标签,其余标签都是该标签的子标签。
<loc> - 必选,指定访问的url,必须以协议名称开头(例如http)。且长度小于2,048个字符。
<lastmod> - 可选,指定该<url>最后修改日期。采用W3C Datetime格式,一般使用YYYY-MM-DD格式省略时间部分。
需注意,这个值和http header中的If-Modified-Since (304)是相互独立的,搜索引擎会根据自身的实现分别取对应的值。
<changefreq> - 可选,指定<url>的大概更新频率。用于告诉搜索引擎大概多久重新抓取一次。
有效值有:always、hourly、daily、weekly、monthly、yearly、never。
awalys代表每次访问该网址都返回不一样的内容。never用于表示一个已归档的资源。
需注意的是,这里只是向搜索引擎告知网站资源的更新情况,而搜索引擎的实际抓取频率取决于搜索引擎自身的实现。另外Google不支持这个标签,Baidu支持。
<priority> - 可选,该<url>在网站中的比重,取值0.0-1.0之间。默认值为0.5。需注意该比重只是相对于当前网站下。另外Google不支持该标签,Baidu支持。
实体转义
sitemap文件必须使用UTF-8格式保存。以及所有标签内容都需要对下列字符进行转义:
描述 字符 转义码
&符号 & &
单引号 ' '
双引号 " "
大于号 > >
小于号 < <
除此之外,需确保<loc>中的网址经过URL编码,以及符合RFC-3986(URI)规范、XML规范(对于IRIs符合RFC-3987)。
下面是一个采用非ASCII字符(ü)和需要进行实体转义的字符(&)的网址示例:
http://www.wdzzz.com/ümlat.html&q=name
经过编码和转义后的同一网址:
http://www.wdzzz.com/%C3%BCmlat.html&q=name
站点地图文件示例
下面是一个包含多个<url>以及不同可选标签的sitemap文件示例:
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://www.wdzzz.com/</loc> <lastmod>2005-01-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> <url> <loc>http://www.wdzzz.com/moban/</loc> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.wdzzz.com/code/</loc> <lastmod>2004-12-23</lastmod> <changefreq>weekly</changefreq> </url> <url> <loc>http://www.wdzzz.com/chajian/</loc> <lastmod>2004-12-23T18:00:15+00:00</lastmod> <priority>0.3</priority> </url> <url> <loc>http://www.wdzzz.com/jiaocheng/</loc> <lastmod>2004-11-23</lastmod> </url> </urlset>