На початку листопада Ігор Бакалов провів цікавий експеримент для перевірки, як пошукові системи враховують meta-robots, а саме інструкції index / noindex, follow / nofollow. Результати виявилися такі, що Google інтерпретує все, як описано в документації для вебмайстрів, а Яндекс не переходить за посиланнями і не індексує документи, що знаходяться в розділах з мета-тегом «noindex, follow».
Цей результат виявився дивним, так як в документації Яндекса є явний приклад з використанням мета-тега robots «noindex, follow». Можливо, пройшло мало часу, перш ніж робити висновки, або десь в експерименті була допущена помилка, а може бути Яндекс, дійсно, враховує все не так, як рекомендує використовувати.
У зв’язку з цим було вирішено повторити експеримент, при цьому зменшити різні заперечення: — Використовувати більше сторінок, щоб зробити Вибірка репрезентативна. — Дочекатися більш повної індексації сторінок експериментального сайту. Поставити додаткові посилання для прискорення індексації, при необхідності. — Перевірити маршрут пошукових ботів по серверних логам access_log.
Гіпотеза експерименту: Google і Яндекс слідують по посиланнях в документі з мета-тегом robots content = «index, follow» або content = «noindex, follow», в незалежності, чи дозволена індексація цього документа тегом чи ні. І не слідують по посиланнях, якщо є інструкція «nofollow».
Проведення експерименту
Для проведення експерименту 28 листопада був створений піддомен exp.devaka.ru , на головній сторінці розміщені посилання на 4 основні розділи. Структура розділів має наступний вигляд:
У розділи, що мають більшу невизначеність у індексації, було додано більше тестових сторінок. Всього сайт містив 14 (і 2 додаткові) унікальні сторінки. Для піддомена налаштовано журналювавання (протоколювання) запитів.
Сайт був доданий в адурілку Гугла і Яндекса. Через кілька днів Google проіндексував основні сторінки, в Яндексі з’явилася головна і сторінка page5.html. Картина не мінялася до 6 грудня, після цього було вирішено поставити сквозняк з блогу devaka.ru для прискорення індексації. Тільки сьогодні, 18 грудня основна частина сторінок проіндексувалася Яндексом і можна робити висновки.
Результати
Google, як і очікувалося, проіндексував сторінки «/ index / nofollow /», «/ index / follow /», а також всі з розділу follow (3, 4, 5 і 9). Сторінки з розділів nofollow не влучили за цей час в індекс.
Якщо подивитися логи і відібрати з них лише запити гугла до розділу nofollow, то ми побачимо, що він чітко дотримується правил мета-тега robots:
66.249.78.213 — — [08 / Nov / 2014: 01: 32: 48 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 01: 34: 32 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 11: 13: 05 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 11: 30: 32 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
По суті, Google відразу ж у перший день пробігся по всіх дозволеним сторінкам.
66.249.78.213 — — [08 / Nov / 2014: 00: 48: 39 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: // www. google.com/bot.html) »
66.249.78.213 — — [08 / Nov / 2014: 01: 32: 48 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.64.169 — — [08 / Nov / 2014: 01: 33: 52 +0300] «GET / index / follow / HTTP / 1.0» 200 1781 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 01: 34: 32 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 01: 35: 12 +0300] «GET / noindex / follow / HTTP / 1.0» 200 2122 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 01: 35: 35 +0300] «GET /index/follow/page9.html HTTP / 1.0» 200 1703 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 01: 40: 34 +0300] «GET /noindex/follow/page3.html HTTP / 1.0» 200 2024 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 01: 40: 35 +0300] «GET /noindex/follow/page5.html HTTP / 1.0» 200 2005 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 01: 40: 35 +0300] «GET /noindex/follow/page4.html HTTP / 1.0» 200 1875 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.213 — — [08 / Nov / 2014: 10: 31: 06 +0300] «GET / index / follow / HTTP / 1.0» 200 1781 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 11: 13: 05 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.227 — — [08 / Nov / 2014: 11: 16: 07 +0300] «GET / noindex / follow / HTTP / 1.0» 200 2122 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
66.249.78.220 — — [08 / Nov / 2014: 11: 30: 32 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) »
В індекс Яндекса потрапили сторінки 1, 2, 3, 4 і 5 з розділів noindex-follow і noindex-nofollow. При цьому, не потрапили сторінки з розділу index (скоріше за все просто не встигли проіндексувати, як мінімум документ в index-follow в експерименті Ігоря індексувався).
Якщо подивитися серверні логи, то в них видно, що в перший день Яндекс просканував основні розділи, що знаходяться в на 2му рівні вкладеності. Але наступного дня він просканував майже всі документи в цих розділах, ігноруючи лише сторінки 6, 7 і 8 (з розділу «index, nofollow»).
178.154.243.107 — — [08 / Nov / 2014: 00: 48: 55 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [08 / Nov / 2014: 00: 56: 57 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [08 / Nov / 2014: 01: 57: 12 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [08 / Nov / 2014: 04: 58: 01 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [08 / Nov / 2014: 13: 00: 18 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [08 / Nov / 2014: 23: 13: 26 +0300] «GET / noindex / follow / HTTP / 1.0» 200 2122 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Nov / 2014: 23: 15: 08 +0300] «GET / index / follow / HTTP / 1.0» 200 1781 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Nov / 2014: 23: 20: 26 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Nov / 2014: 23: 24: 55 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 00: 59: 40 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 43: 41 +0300] «GET /noindex/follow/page5.html HTTP / 1.0» 200 2005 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 46: 09 +0300] «GET /index/follow/page9.html HTTP / 1.0» 200 1703 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 51: 35 +0300] «GET /noindex/nofollow/page2.html HTTP / 1.0» 200 1767 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 51: 38 +0300] «GET /noindex/follow/page4.html HTTP / 1.0» 200 1875 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 51: 58 +0300] «GET /noindex/follow/page3.html HTTP / 1.0» 200 2024 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [09 / Nov / 2014: 10: 57: 00 +0300] «GET /noindex/nofollow/page1.html HTTP / 1.0» 200 1687 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [10 / Nov / 2014: 00: 57: 39 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
95.108.158.145 — — [10 / Nov / 2014: 14: 06: 25 +0300] «GET / HTTP / 1.0» 200 1738 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
5.255.253.152 — — [10 / Nov / 2014: 17: 10: 40 +0300] «GET /noindex/follow/page5.html HTTP / 1.0» 200 2005 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
Після проставляння сквозняку ситуація повторилася, Яндекс просканував всі сторінки, за винятком 6, 7 і 8. Те ж саме повторилося і 10-го грудня.
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 24 +0300] «GET / noindex / nofollow / HTTP / 1.0» 200 1910 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 26 +0300] «GET / index / follow / HTTP / 1.0» 200 1781 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 28 +0300] «GET / index / nofollow / HTTP / 1.0» 200 2280 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 33 +0300] «GET / noindex / follow / HTTP / 1.0» 200 2122 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 35 +0300] «GET /index/follow/page9.html HTTP / 1.0» 200 1703 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 43 +0300] «GET /noindex/follow/page3.html HTTP / 1.0» 200 2024 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 47: 45 +0300] «GET /noindex/follow/page4.html HTTP / 1.0» 200 1875 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 48: 20 +0300] «GET /noindex/nofollow/page2.html HTTP / 1.0» 200 1767 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 02: 48: 22 +0300] «GET /noindex/nofollow/page1.html HTTP / 1.0» 200 1687 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 07: 29: 32 +0300] «GET /noindex/follow/page5.html HTTP / 1.0» 200 2005 «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: //yandex.com/bots) »
5.255.253.152 — — [08 / Dec / 2014: 11: 55: 42 +0300] «GET / HTTP / 1.0» 304 — «-» «Mozilla / 5.0 (compatible; YandexBot / 3.0; + http: // yandex. com / bots) »
Таким чином, можна зробити висновок, що Яндекс сприймає інструкції в meta-robots наступним чином:
noindex, follow (стор 3-5) — ця сторінка кудись посилається, відмінно, подивлюся куди 🙂 noindex, nofollow (стор 1-2) — не важливо, що тут nofollow, я повинен подивитися, куди посилається ця сторінка. index, nofollow (стор 6-8) — хм … мені дозволили індексувати документ, але тут варто nofollow, не ??буду палитися і йти далі по посиланнях. index, follow (стор 9) — ну це стандартна ситуація, все дозволено.
Початкова гіпотеза підтвердилася не повністю. Якщо Google сприймає правила коректно, то в Яндексі залишається питання з розділом «noindex, nofollow», в якому іноді закривають лінкопомийки. Що стосується «noindex, follow», то на відміну від експерименту Ігоря, тут Яндекс все інтерпретував коректно і проіндексував документи.
Стаття створена за матеріалами сайту https://devaka.ru/articles/meta-robots
Примітка: Сквозняк — Зовнішнє посилання, яке присутнє відразу на всіх сторінках, що розмістив його сайт. Посилання такого типу проходять весь сайт «наскрізь», від чого і заслужили свою назву.