Loading

środa, 24 listopada 2010

Jak usunąć lub zablokować stronę w Google Cache?

Autorem artykułu jest EnDrYu(R)



Powszechnie wiadomym jest, że Google zjada wszystko, co mu w łapska wpadnie. Indeks stale powiększa się o tysiące podstron. Czasem jednak zajdzie potrzeba, gdy określone strony naszego serwisu nie mogą być indeksowane przez Google np. ze względu na wrażliwe dane czy też testowe wdrożenia podstron.

Inną przyczyną są strony np. o krótkim okresie żywotności - to również często tyczy się ogłoszeń, które jak szybko pojawiają się w sieci, tak szybko znikają - i robi się bajzel szybko kierujący ruch do stron z magicznymi cyframi 404:P

Podczas projektowania stron www nierzadko wykorzystuje się samo blokowanie dostępu dla robotów wyszukiwarek z prostej przyczyny - aby w wyszukiwarkach przypadkiem nie znalazła się robocza wersja strony;)

Jak blokować archiwizowanie podstron w Google?

Tutaj technicznie mogę opisać jedną wystarczającą metodę: zastosowanie odpowiedniego nagłówka META.

Wystarczy, że w sekcji < head> dodamy kod:

< meta name="robots" content="noarchive" />

Typ "noarchive" informuje roboty wyszukiwarek, aby strona z takim tagiem META nie była archiwizowana - dodawana do cache wyszukiwarek.

Jeżeli chcemy zaś uniemożliwić cache'owanie podstron serwisu tylko dla Google, za to dla innych wyszukiwarek podstrona ma być normalnie widoczna w pamięci podręcznej, stosujemy:

< meta name="Googlebot" content="noarchive" />

Jak usunąć istniejący cache w Google?

Technicznie - używając tego samego tagu, co w przypadku pierwszej opcji - lecz tutaj z kolei musimy łaskawie czekać, aż robaczek Google odwiedzi naszą podstronę nadającą się do wyrejestrowania z Google Cache.

Jak usunąć podstronę z indeksu Google?

Tutaj sprawa jest nieco bardziej złożona - metod na blokowanie dostępu jest kilka i technicznie, te same metody mogą posłużyć do wyindeksowania strony z indeksu wyszukiwarek. Niestety, w przypadku wyindeksowania, jesteśmy ponownie skazani na oczekiwanie.

Sprawę blokowania dostępu do podstron dla robotów wyszukiwarek internetowych można przedstawić na dwóch najpopularniejszych sposobach - tagu META oraz regule w pliku robots.

W przypadku tagu META, wystarczy w sekcji HEAD wrzucić:

< meta name="Robots" content="noindex" />

Reguła informuje robota wyszukiwarki, aby nie indeksował wybranej strony.

W przypadku plików robots, wystarczy z kolei, że do reguł dopiszemy:

User-agent: *

Disallow: /adres-mojej-podstrony.html

aby robot nie indeksował wybranego adresu, lub:

User-agent: *

Dissalow: /kategoria/moje-ulubione/*

aby robot nie indeksował żadnej podstrony, której adres zaczyna się od "/kategoria/moje-ulubione/".

Do metod usuwania podstron z indeksu Google można również zaliczyć dwie dodatkowe metody: nieco bardziej zaawansowana, bo wymaga pewnych zmian programistycznych - wysłanie nagłówka o kodzie 410, który dla Google jest niczym innym, jak natychmiastowym poleceniem w stylu "Wyrzuć tą stronę z indeksu", czyli:

Druga metoda, to wykorzystanie narzędzia do usuwania podstron z indeksu Google poprzez panel Webmaster Tools. Jest to niestety robota czasochłonna, jeśli adresów do usunięcia jest sporo. Panel usuwania adresów z indeksu Google jest dostępny pod adresem:https://www.google.com/webmasters/tools/removals

---

Artykuł pochodzi z serwisu www.Artelis.pl

Brak komentarzy:

Prześlij komentarz