Генеральная уборка блога

В конце мая обнаружила, что мои сайты воспринимаются как дубли. Некорректная индексация привела к тому, что поисковики индексировали всякую служебную ерунду, биржи ссылок считали проиндексированными меньшее количество страниц и отказывали в регистрации. Например, в ротапосте можно указать только сайт с www или без www. Мой блог с www был плохо проиндексирован (мизер вообще), а без www– где-то 64 страницы, уже лучше, но тоже мало.

Признаться честно, как это в порядок привести голову ломала долго. Читала много. Думала много. Ковырялась наверное неделю.

Что сделала.

В начале июня 2011 года для того, чтобы Яндекс и google проиндексировали большее количество страниц сделала xml карту для каждого сайта. Это немного помогло – в карте, отправленной Гуглу, 489 страниц, проиндексировал уже 108, в июне было 64. Небольшой, но прогресс. Сервис Яндекса на данный момент показывает индексацию 410 страниц. Как он видел сайт раньше точно сказать не могу, но скорее всего, как сайт leanunion.ru– у которого в индексе было 11000 страниц!

Сейчас – после колдовства – Яндекс его корректно проиндексировал – 225 страниц. А 11000 было за счет того, что он видел 4 дубля – www.leanunion.ru,  leanunion.ru, leanrussia.ru, lean-union.ru. К тому же робот кушал кучу категоризированных страниц. Не от большого ума я материалу присваивала кучу тегов. Анонсы материалов вылазили на страницы категорий и создавалась куча дублей. Ведь для поисковика это статика и анонс, повторяющийся на многих страницах – дубль.

Увиденная с помощью сервисов для вебмастеров картина привела меня в ужас и уныние. День я отходила от шока. Казалось, что порядок в этом не навести и за год. Потом взяла себя в руки.

Что у меня было: сайт открывался по адресу с www и без него. Посмотрела, как у людей на сайте drupal.org. Выяснилось, что у народа стоит переадресация: кто-то сразу перекидывает на www, другие выбирают основной версией – без www. Но ни у кого нет, так как у меня – и с www, и без.

Было понятно, что надо равняться на специалистов. Выяснила, что делается это с помощью 301 редиректа в файле .htaccess. Почесала затылок, стала колдовать.

Работу по настройке начала с блога. Раньше у меня адрес был www.maria.maksimova.info, решила вернуться к историческому maksimova.info и собрать воедино вес всех ссылок. Потому что некоторые ссылаются на мой блог maria.maksimova.info, а некоторые на maksimova.info. До июня показатели сайта были печальные – ТИЦ 10, PR– 0.

Настройка 301 редиректа

То есть что мне надо было: чтобы при вводе в броузере www.maria.maksimova.info, maria.maksimova.info, www.maksimova.info перекидывалось на сайт maksimova.info. И чтобы поисковики считали моим основным адресом maksimova.info, а остальное вопринимали как алиасы, но уж никак не отдельные сайты.

Пришлось попотеть. Писала правило

RewriteEngine On

RewriteCond %{HTTP_HOST} !^www\.(.*) [NC]

RewriteRule ^(.*)$ http://www.%1/$1 [R=301,L]

А оно у меня не работало. На понимание, какого черта у меня не работает, ушло много времени.

А ларчик открывался просто, случайно совсем дотумкала.

Я делала так:

RewriteCond %{HTTP_HOST} ^www\.maksimova\.info$ [NC]

RewriteCond %{HTTP_HOST} ^www\.maria.maksimova\.info$ [NC]

RewriteCond %{HTTP_HOST} ^maria.maksimova\.info$ [NC]

RewriteRule ^(.*)$ http://maksimova.info/$1 [L,R=301]

 

А надо было так:

RewriteCond %{HTTP_HOST} ^www\.maksimova\.info$ [NC]

RewriteRule ^(.*)$ http://maksimova.info/$1 [L,R=301]

 

RewriteCond %{HTTP_HOST} ^www\.maria.maksimova\.info$ [NC]

RewriteRule ^(.*)$ http://maksimova.info/$1 [L,R=301]

 

RewriteCond %{HTTP_HOST} ^maria.maksimova\.info$ [NC]

RewriteRule ^(.*)$ http://maksimova.info/$1 [L,R=301]

 

После этого все стало просто – проделала сии действия со всеми сайтами. И стало у меня, как у людей.

 

Тег canonical

По совету моего знакомого написала в шаблоне каждого сайта тег canonical с указанием канонического адреса:

<link href="http://maksimova.info/" rel="canonical"/>

 

Теперь осталось сообщить Яндексу и Гуглу основной домен

Яндексу для этого необходима строчка host в конце файла robots.txt.

А у Гугла можно выбрать основной домен в настройках панели https://www.google.com/webmasters/ например, Отображать URL-адреса как blagoslovi.ru

 

Следующим шагом к чистоте индекации стало исключение дублей страниц из индекса

С сайтом leanunion.ru мне пришлось повозиться непосредственно в админке сайта – убрала лишние рубрики.

Посмотрела, где у меня дублируется контент. В архиве, к примеру, в трекере (ленте – последнее на сайте).

Страницы архива, карту сайта, страницы с категориями и прочую дублирующую контент ерунду я закрыла от индексации в файле robots.txt. Например:  Disallow: /archive*

Для друпала получилось так:

User-agent: *

Crawl-delay: 10

# Directories

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /profiles/

Disallow: /scripts/

Disallow: /themes/

# Files

Disallow: /CHANGELOG.txt

Disallow: /cron.php

Disallow: /INSTALL.mysql.txt

Disallow: /INSTALL.pgsql.txt

Disallow: /install.php

Disallow: /INSTALL.txt

Disallow: /LICENSE.txt

Disallow: /MAINTAINERS.txt

Disallow: /update.php

Disallow: /UPGRADE.txt

Disallow: /xmlrpc.php

# Paths (clean URLs)

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /logout/

Disallow: /node/add/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: /user/login/

Disallow: /category/tegi*

Disallow: /sitemap

Disallow: /tracker*

Disallow: /event/ical*

Disallow: /event*

Disallow: /archive*

Disallow: /users

Disallow: /user?login

Disallow: /user?register

Disallow: /node*

Disallow: /node?page*

Disallow: /feed/

Disallow: */*/feed/*/

Disallow: */feed

Disallow: */*/feed

Disallow: /?feed=

Disallow: /*?*

# Paths (no clean URLs)

Disallow: /?q=admin/

Disallow: /?q=comment/reply/

Disallow: /?q=logout/

Disallow: /?q=node/add/

Disallow: /?q=search/

Disallow: /?q=user/password/

Disallow: /?q=user/register/

Disallow: /?q=user/login/

Host: leanunion.ru

 

Ну вот вроде все мероприятия.

Благодаря генеральной уборке, Яндекс и Гугл страницы проиндексировали адекватно.

Поднялись показатели ТИЦ и Page Rank: у leanunion.ru ТИЦ 20 и Page Rank 3, у моего блога Page Rank 3. 

Интересы: