Buscadores: Evitar el contenido duplicado
En el Blog Central Webmaster de Google hay un interesante artículo de Adam Landsnik (que Michel ya ha traducido) sobre el contenido duplicado y como lo maneja Google.
En el habla de cosas que muchos conocemos, que es el contenido duplicado y como lo maneja, aunque lo más interesante es como podemos evitar que alguna de nuestras páginas sea marcada como contenido duplicado para Google.
Uno de los problemas más comunes es no manejar bien las redirecciones 301 en nuestro htaccess, por ejemplo el no redireccionar el dominio al www o viceversa. Por ejemplo, en este blog no se puede abrir una url sin el www, porque si intentamos abrirla nos redirigirá al dominio con triple w. Hay que pensar que mucha gente nos enlazará con o sin www, y Google seguirá las dos urls como diferentes, una de ellas la considerará contenido duplicado.
Simplemente con un par de lineas en el htaccess lo arreglamos.
De este modo forzamos todas las urls sin el www que se conviertan en www.online.com.es/(lo que sea):
RewriteCond %{HTTP_HOST} ^online.com.es
RewriteRule (.*) http://www.online.com.es/$1 [R=301,L]
O si preferimos hacerlo al reves para no tener que ver el www:
RewriteCond %{HTTP_HOST} www.online.com.es
RewriteRule (.*) http://online.com.es/$1 [R=301,L]
Otro problema similar es el enlazar a un sitio con o sin el index (.php, .html …), que también lo podemos resolver, aunque de otro modo. Por ejemplo (si usamos apache) cambiando el index.php a nuevoIndex.php (o cualquier otro nombre que no sea considerado indice). Ahora creamo un nuevo index.php con el siguiente código:
< ? header("Location: http://www.dominio.com"); ?>
De momento lo único que hemos hecho es redirigir el index.php al dominio.com, pero ahora hay que modificar el htaccess para hacer el nuevoIndex.php que sea nuestro archivo inicial:
DirectoryIndex nuevoIndex.php
Dependiendo de los casos también podemos modificar (si tenemos un dedicado) el httpd.conf de nuestro apache, en vez de utilizar el htaccess.
Otro problema que tenemos en los blogs es el tema de los planets, scrapers (o como queramos llamarlo), bueno para mi no es ningún problema, porque básicamente estos sitios SI ponen un enlace a nuestra web, es peor los sitios que copian el contenido a mano y no ponen un enlace. Además siendo sitios que cogen nuestro contenido mediante la sindicación de contenidos, es cuestión de aprovecharnos de ellos, y de ponernos enlaces internos a nuestro blog (a más planets, más enlaces).
Otro tema común en los blogs es la repetición de contenido ‘gracias’ a nuestro CMS, o a nosotros mismo entrada por días, por meses, por temas, por tags, … aunque no te van a tumbar un buen site porque tengas contenido duplicado, como mucho, una de las dos páginas (la considerada duplicada o no) caerá, pero no la otra. También podemos arreglarlo con el fichero robots.txt eliminando las partes ‘malas’, archivos por fechas, categorias, etc. para dejar como validos unicamente los posts.





el 20 Diciembre, 2006
Muy interesante el consejo del nuevoindex.php. Gracias por ello.
el 20 Diciembre, 2006
Crhistian, se que hay otra manera de hacerlo si utilizas un servidor dedicado y tienes acceso al httpd.conf (para no tener que hacerlo en todos los sites). Si no recuerdo mal, había que poner la misma linea que en el htacces avisando en que directorio del servidor vas a hacer cumplir la regla.