Роль файлу robots.txt в оптимізації Blogspot Blogger

Вітаю, мої дорогі читачі. Останнім часом все частіше в мене запитують про інструменти для вебмайстрів Google і Яндекс, а саме про файл robots.txt, про заборонені до індексації сторінки або заблоковані сторінки у файлі robots.txt.

Роль файлу robots.txt в оптимізації Blogger Blogspot

Дивно виходить, спочатку ми шукаємо інформацію про те, як оптимізувати blogger, виконуємо всі рекомендації, а потім тільки починаємо задавати питання, чому в мене заблоковані сторінки і як їх розблокувати.
Тому я і вирішив розглянути оптимізацію блогів Blogger / Blogspot з погляду файлу robots.txt. Почну по порядку, з того, що взагалі таке файл robots.txt.

Файл robots.txt - по суті це звичайний текстовий файл, який знаходиться в кореневій папці сайтів.

    http://site.ru/robots.txt

Файл звичайний, а от вміст цього файлу дуже важливе. Файл robots.txt був задуманий для того, щоб керувати індексацією сайту. Вказувати пошуковому роботу, що можна індексувати, а що не можна.

Природно, виникає питання, а навіщо взагалі щось забороняти, нехай робот індексує все.

Перша і найочевидніша ситуація. З розвитком інтернету все більше сайтів підтримують реєстрацію і особисті кабінети користувачів з такою інформацією, з якою самі користувачі не захотіли б ділитися. Так само, до цієї ситуації можна віднести і такі, коли на сайті є розділи доступні для всіх користувачів, і розділи, доступні тільки для зареєстрованих користувачів. Думаю, з цим зрозуміло. І такий зміст спеціально забороняється до індексації.

Але є й інша ситуація, яку ми розглянемо більш докладно.

Всі сучасні сайти є динамічними. Багато користувачів наївно вважають, що динамічний сайт, це той, на якому бігають рядки, картинки самі змінюють один одного і т.п. і те, що називають флеш-сайт. Насправді, динамічний сайт до цього не має ніякого відношення. І слово динаміка виникла зовсім з іншої причини.

Я не є професіоналом, тому можу десь вжити не зовсім точні формулювання, але сподіваюся, мені вдасться передати вам суть. Уявіть собі інтернет-магазин. На сайті є форма пошуку товару за різними критеріями. На один і той же товар можна потрапити вживши різні фільтри. Наприклад, фільтр по виробниках може призвести до товару, який так само можна вибрати, застосувавши фільтр по ціні і габаритами. Використання різних фільтрів створює в URL сторінки різний шлях до товару. І один і той же товар може знаходитися на 2-3-4-х різних URL.

Ось тут починається плутанина, а яка з усіх цих сторінок є правильною і найважливішою? Яку сторінку показувати в результатах пошуку? Ось тут і приходить на виручку такий файл, як robots.txt. В якому зазначено, що всі URL, які виникли в результаті застосування фільтрів, індексувати не можна.

Відмінною особливістю всіх URL, які сформувалися в процесі вибору товарів, є присутність спеціальних символів або слів. Повернемося до наших блогах. Я пропоную вам розібрати один окремий випадок. Цей випадок не частий, але й не рідкісний, особливо, на початковому етапі ведення блогів, коли ми ще не все розуміємо. Прошу поставитися до цього випадку, як до віртуального приклад, тобто зовсім не обов'язково, що таке може бути у вас, але при цьому поставитися з усією серйозністю, тому що такі випадки все ж не рідкість.
Умова

    Ви показуєте повний текст статті на головній, чи не ховаючи частину статті під кат.
    Цій статті ви присвоїли ярлик, за яким у вас ще немає інших статей, крім цієї.

Зайдемо на нашу уявну статтю, вона має адресу

    http: // мій_блог / дата / моя_стаття

Пам'ятайте, ви присвоїли цій статті ярлик, якого ще немає в жодної статті. Ви тільки що вирішили придумати писати на цю тему, та інших статей на цю тему у вас немає. Зайдемо на сторінку цього ярлика. Він має URL

    http: // мій_блог / search / label / назва_ярлика

І що ми бачимо. На цій сторінці наша стаття, в повному варіанті, тому ми не ховаємо її під кат, і інших статей у нас взагалі немає.

У підсумку виходить, одна і та ж стаття присутня відразу за двома різними адресами. Яка з цих двох сторінок є правильною? Яка важливіше? Пошуковий робот не може визначити різницю між цими сторінками і вважає їх практично однаковими.

Ось до такого змістом пошукові роботи ставляться дуже негативно. І навіть, коли ми починаємо ховати статті під кат, і навіть, коли у нас по ярлику знаходиться кілька статей, пошуковій системі не подобається, що у нас взагалі складаються такі сторінки. Така ситуація носить назву - дублювання контенту.

Тому, щоб пошукові системи не лаялися, щоб краще ранжирували наш блог, у файлі robots.txt стоїть запис:

    User-agent: *
    Disallow: / search

Яка означає, що будь-які роботи всіх пошукових систем не повинні індексувати сторінки, які мають в собі директиву / search. Це зроблено для нашого блага розробниками платформи. І виявивши в інструментах попередження, що якісь сторінки заблоковано (заборонені) файлом robots.txt, не потрібно впадати в паніку і переживати, що на вашому сайті щось не індексується.

Схожа ситуація складається і з архівами. Наприклад, у вас на головній сторінці блогу відображається 10 статей. Адреса головної сторінки

    http: // мій_блог

І так виходить, що всі ці 10 статей написані в листопаді. Багато хто використовує віджет Архів. Виберемо в архіві листопада, ми побачимо все ті ж 10 статей, які зараз знаходяться на головній сторінці блогу, але в адресному рядку браузера ми бачимо зовсім інший URL

    http: //мій_блог/2010_11_01_archive.html

Одне і теж зміст за різними адресами. Ось такі сторінки архіву ми навмисно забороняємо до індексації через мета-теги.
Щось подібне складається через стандартного лістингу сторінок блогу не по окремих статтях, а коли можна гортати головну сторінку. В результаті перегортання головної сторінки утворюються адреси виду

    http: // мій_блог / search? updated-max = 2010-06-17T16% 3A17% 3A00% 2B03% 3A00 & max-results = 7

Здавалося б, в URL цієї сторінки міститься директива / search, але я звернула увагу, що Google постійно індексує ці сторінки. Саме тому в мене немає лістингу по сторінках. Я його просто видалила, щоб не складалося таких сторінок. При цьому все, що трапляються в пошуку, я видаляю вручну в інструментах веб-майстра на вкладці Конфігурація сайту - Доступ для сканера - Видалити URL.

Часто в індекс Google (в Яндекс я з таким не стикалася) потрапляють і сторінки Ярликів, які заборонені файлом robots.txt. Всі такі URL я так само видаляю в інструментах вебмастера Google.

Основна проблема блогів Blogger / blogspot полягає в тому, що у нас немає доступу до файлу robots.txt, який ми могли б змінити самостійно так, як хочемо. У нас взагалі немає іншого дуже важливого файлу sitemap.xml в якому ми могли б вказати важливі сторінки свого блогу. Це проблема всіх безкоштовних блогових платформ. І тут нічого неможливо з цим вдіяти. Ми можемо тільки змиритися і періодично перевіряти індексацію, видаляючи сторінки, які випадково потрапили в індекс пошукової системи.