Las urls canonicals son una de las meta etiquetas HTML más importantes que hoy en día utilizamos los profesionales SEO para evitar posibles penalizaciones por la existencia de contenido duplicado en urls distintas.
Esta meta fue creada en 2009 con la intención de que pudiéramos indicarles a los buscadores que somos conscientes de la existencia de páginas en nuestra web con contenido similar, y en esos casos, poder definir cuál de esas urls semejantes es prioritaria a la hora de otorgar una posición de mayor peso en los resultados de búsqueda.
A casos prácticos, podríamos decir que, si tenemos 10 páginas con un contenido semejante, con la meta canonical podemos decidir cuál de ellas queremos que se muestre en las páginas de resultados de búsqueda.
Los usos y aplicaciones principales de las urls canonicals son:
- Evitar la penalización de Google por contenido duplicado, controlando su visibilidad cuando tenemos dos resultados iguales
- Controlar a qué página queremos dar visibilidad cuando tenemos dos páginas que pujan por una misma keyword
¿Afectan las urls canonicals al SEO?
Efectivamente, ya que aplicar tratamiento adecuado de canonicals puede incidir directamente al posicionamiento SEO. Tanto positivamente si se hace forma correcta, y drásticamente si se hace de forma incorrecta.
Si nos remontamos al 2011, año en el que se lanzó el algoritmo Panda, podemos recordar cómo millones de webs, ecommerce y blogs fueron penalizados de forma arrolladora acabando en muchos casos con la actividad de estos sitios.
En esa época muchos no tuvieron en cuenta el tratamiento de las metas canonicals para evitar esta sanción. No obstante, de haberlo hecho, quizás ahora muchas de ellas seguirían con un estado de visibilidad competitiva. Fue una sorpresa para todos ver como de tener dos, tres e incluso cuatro resultados en las primeras posiciones de resultados orgánicos, a pasar a un estado de inexistencia total.
Las metas canonicals pueden aportar las siguientes mejoras sustanciales:
- Permitir mantener páginas en nuestra web con contenido muy similar sin ser penalizado (Ej. Mismo producto con diferencia de color)
- Controlar las urls parametrizadas (Ej. dominio.com/pagina1&orden=33)
- Estabilizar y controlas las lógicas adecuadas para las paginaciones
- Controlar la versión de protocolos de navegación http / https
- Controlar las versiones de dominio con www y sin www
- Optimizar las versiones idiomáticas junto a la meta hreflang
- Definir las versiones originales de las páginas AMP
- Evitar duplicidades entre las versiones móviles de las versiones AMP
- Consolidar lógicas de rastreo definidas en el robots.txt
Urls con mismo contenido en web sin ser penalizado
Como ya hemos comentado, con la meta canonical podemos presentar contenido a nuestros usuarios sin ser penalizados. Este caso suele ser muy común en las fichas de productos de ecoomerces con grandes volúmenes de productos. En muchos casos, esos productos pueden presentar una diferencias muy pequeñas.Por ejemplo, un pequeño componente, año de fabricación, color, etc….
En estos casos, las descripciones de estos productos, las fichas técnicas e incluso las imágenes suelen ser las las mismas y en la que solo encontraríamos no más de 5 palabras diferentes, por lo que el contenido seguramente sería interpretado por los crawls como duplicado.
De esta manera solo podemos hacer dos cosas:
- Modificar, ampliar o reducir los textos en cada uno de ellos para que estos contenidos no sean identificados como duplicados
- Mediante el uso de la meta canonical, seleccionando uno de ellos para que sea el representante en los resultados de búsqueda de todos ellos.
Control de las urls parametrizadas
Los parámetros son un tipo de recurso muy utilizados por webmasters, desarrolladores y analíticos de datos que pueden convertirse en un problema si no se hace un control de estos.
De forma generalizada diremos que estos suelen presentar en su estructura caracteres NONascii, siendo los signos ¿, &, = los recursos más comúnmente utilizados.
Sus aplicación y usos principales son:
- Para datos de seguimiento útiles mediante el uso de UTMS que faciliten el seguimiento y obtención de datos analíticos. Se tratan de pequeños fragmentos de caracteres que se añaden al final de las urls originales.
- Para generar directivas de control de orden y organización de resultados a partir de filtros diseñados para tal efecto.
En estos casos, el uso de la urls canonicals es muy efectivo ya que podemos evitar que estas urls parametrizadas sean indexadas. Así damos prioridad a la url inicial sin estos parámetros. De tal forma, todas las urls parametrizadas debería de presentar como urls canonical aquella url que no presenta en su estructura las variables, bien sean utm para el control analítico como parámetros de orden y organización.
Uso de urls canonicals en paginaciones
Las paginaciones son un proceso por el que una url se divide en diferentes páginas con urls propias. Estas son utilizadas mayormente en categorías de productos o blog.
Con el uso de las canonicals podemos ayudar a los motores de búsqueda a entender la relación entre esta serie de paginaciones. Así evitamos que sean interpretadas como contenido duplicado.
Las urls canonicals en las paginaciones acompañan a los atributos rel=”nex” y rel=”prev” que permiten identificar la secuencia “página siguiente” y “página anterior”.
El problema que suele presentar las paginaciones es que es difícil saber si los resultados que van a presentar cada uno de ellos van a ser similares o no. Por ello, lo ideal es que cada página presente como canonical su propia url.
- Ejemplo de caso práctico de url con aplicación de canonical de forma correcta:
URL: http://www.dominio.com/resultado-ok/pag-2/
<link rel=”prev” href=”www.dominio.com/resultado-ok/” />
<link rel=”next” href=”www.dominio.com/resultado-ok/pag-3/” />
<link rel=”canonical” href=”www.dominio.com/resultado-ok/pag-2/” />
Control de versiones https / https y www / sin www
En ocasiones, los webmaster suelen cambiar de protocolo de navegación o versiones de dominio. Sin embargo, en muchos casos olvidan aplicar estas versiones diferenciadas en su estructura de enlaces y urls internas. Incluso en la meta canonical, generando grandes problemas en la interpretación de urls prioritaria. Ello conlleva la pérdida de visibilidad orgánica.
Por tanto, ante una incosistencia entre las versiones http/https o www/sin www es recomendable el uso de la meta canonical, indicando siempre en todo momento la url principal en cada caso
Urls parametrizadas en hreflang
Hreflang es un atributo lanzado en el 2011 que permite identificar a los motores de búsqueda las variaciones lingüísticas que una web presenta para un mismo contenido. Con este atributo, los rastreadores permiten ofrecer de forma optimizada la versión idiomática en virtud de la lengua y región del usuario.
En un caso práctico, si disponemos de dos páginas diferencias por idiomas ingles y alemán, ambas deben de presentar el atributo hreflang y el canonical deberá de presentar la versión de la página que estamos en ese momento visualizando.
- Este sería el etiquetado html que presentaría la página en inglés:
<link rel=”alternate” href=”www.dominio.com/en/resultado-uno/” hreflang=”en-us” />
<link rel=”alternate” href=”www.dominio.com/de/resultado-uno/” hreflang=”de-de” />
<link rel=”canonical” href=”www.dominio.com/en/resultado-uno/” />
- Esta sería el etiquetado html que presentaría la página en alemán:
<link rel=”alternate” href=”www.dominio.com/en/resultado-uno/” hreflang=”en-us” />
<link rel=”alternate” href=”www.dominio.com/de/resultado-uno/” hreflang=”de-de” />
<link rel=”canonical” href=”www.dominio.com/de/resultado-uno/” />
Urls parametrizadas para uso en versiones AMP
Las páginas AMP (Accelerated Mobile Pages) es la tecnología que permite ver el contenido de una página de un modo mucho más rápido cuando se accede a través de un smartphone.
Cuando aplicamos esta tecnología en nuestras web estamos ofreciendo una mejora interesante para los resultados de búsquedas realizadas a través de teléfonos móviles. De esta forma se mejoran las posibilidades de posicionamiento orgánico. Pero al mismo tiempo estamos creando un contenido textual idéntico a su versión de desktop. Por ello, aplicar una lógica de etiqueta canonical es indispensable para no ser penalizado por contenido duplicado.
Cuando disponemos de las dos versiones de una misma página tanto en html como en amp, debemos de identificar en ambos casos las versiones existentes y la aplicación de su canonical a la fuente original (desktop) desde la versión amp y la etiqueta amphtml desde la versión desktop.
- Aplicación de etiquetas en versión desktop:
<link rel=»canonical» href=»www.dominio.com/en/resultado-uno/» />
<link rel=»amphtml» href=»www.dominio.com/en/resultado-uno/amp/» />
- Aplicación de etiquetas en versión AMP:
<link rel=»canonical» href=»www.dominio.com/en/resultado-uno/» />
Consolidación de lógicas según robots.txt
Aplicar una directiva de bloqueo mediante el uso de disavow: /carpeta-x en el fichero robotx.txt es una mala praxis cuando estamos usando para esa url una etiqueta canonical. El motivo se debe a que, si impedimos al robot acceder a esta url (carpeta-x) no podrá detectar la etiqueta canonical, por lo que nuestro problema de contenido duplicado se mantendrá en el tiempo de manera innecesaria.