/ / SEO sitemap.xml conteúdo dinâmico - seo, sitemap, dynamic-data

Conteúdo dinâmico do sitemap.xml de SEO - seo, sitemap, dynamic-data

Vamos dizer que temos essas páginas:

1. http://www.mywebsite.com/users/thomas-roberts
2. http://www.mywebsite.com/pages/thomas-roberts/1
3. http://www.mywebsite.com/pages/thomas-roberts/hello-kitty-collection

Existe a possibilidade de fazer isso em um sitemap.xml:

<?xml version="1.0" encoding="utf-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://mywebsite.com/users/^(w+)$/</loc>
<lastmod>2006-11-18</lastmod>
<changefreq>daily</changefreq>
<priority>1</priority>
</url>
<url>
<loc>http://mywebsite.com/users/^(w+)$/pages/^(w+)$</loc>
<lastmod>2006-11-18</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://mywebsite.com/users/^(w+)$/pages/^(d+)$</loc>
<lastmod>2006-11-18</lastmod>
<changefreq>daily</changefreq>
<priority>0.6</priority>
</url>
</urlset>

Espero que meu exemplo seja claro, não especificamos um novo elemento "url" no arquivo sitemap.xml, mas em vez disso, combinamos um regex com o URL e voltamos sempre para atualizar.

Se isso não for uma solução, como o Twittere Facebook indexam todas as suas páginas (páginas de perfil, etc.) no Google? Eles geram um novo sitemap toda vez que um novo usuário é criado e atualizam seu sitemap sempre que alguém atualiza sua página / perfil?

Eu era muito curioso, se nós de alguma forma gerássemos o sitemap.xml (que tem um limite de 50.000 itens e 10mb), o que seria uma boa idéia para gerar sitemaps se o conteúdo fosse modificado?

Muito obrigado.

Respostas:

2 para resposta № 1

O sitemap deve conter, na verdade, URLs. Regex não são aceitáveis ​​e completamente inúteis, pois não dizem nada aos motores de busca.

Os Sitemaps apenas informam aos mecanismos de pesquisa onde encontrar seu conteúdo. Portanto, se o conteúdo de uma página for modificado, o sitemap realmente não afetará os mecanismos de pesquisa.


0 para resposta № 2

Infelizmente, os arquivos de sitemaps exigem URLs explícitos. Arquivo Robots.txt em vez disso admitir certo tipo de Sintaxe de curinga por meio de sinais * e + para representar um conjunto de URLs, mas esse não é o caso dos arquivos de sitemaps.


0 para resposta № 3

Acho que a melhor ideia é atualizar o URL em umbanco de dados (ou cache) usando um script que está sendo executado pelo cron job. Se o sitemap.xml puder ser gerado dentro do limite de tempo do servidor, deixe-o rodar imediatamente usando os dados. Veja aqui um exemplo: https://stackoverflow.com/a/29468042/4058484

No entanto, se você tiver uma quantidade enorme de dados, o melhor é localizar os URLs em vários sitemap permitidos, desde que o sitemap.xml listado seja especificado em robots.txt, veja os detalhes aqui: http://www.sitemaps.org/protocol.html#sitemapIndexXMLExample.