Роль файлу robots.txt в оптимізації Blogspot Blogger |
Роль файлу robots.txt в оптимізації Blogger Blogspot
Тому я і вирішив розглянути оптимізацію блогів Blogger / Blogspot з погляду файлу robots.txt. Почну по порядку, з того, що взагалі таке файл robots.txt.
Файл robots.txt - по суті це звичайний текстовий файл, який знаходиться в кореневій папці сайтів.
http://site.ru/robots.txt
Файл звичайний, а от вміст цього файлу дуже важливе. Файл robots.txt був задуманий для того, щоб керувати індексацією сайту. Вказувати пошуковому роботу, що можна індексувати, а що не можна.
Природно, виникає питання, а навіщо взагалі щось забороняти, нехай робот індексує все.
Перша і найочевидніша ситуація. З розвитком інтернету все більше сайтів підтримують реєстрацію і особисті кабінети користувачів з такою інформацією, з якою самі користувачі не захотіли б ділитися. Так само, до цієї ситуації можна віднести і такі, коли на сайті є розділи доступні для всіх користувачів, і розділи, доступні тільки для зареєстрованих користувачів. Думаю, з цим зрозуміло. І такий зміст спеціально забороняється до індексації.
Але є й інша ситуація, яку ми розглянемо більш докладно.
Всі сучасні сайти є динамічними. Багато користувачів наївно вважають, що динамічний сайт, це той, на якому бігають рядки, картинки самі змінюють один одного і т.п. і те, що називають флеш-сайт. Насправді, динамічний сайт до цього не має ніякого відношення. І слово динаміка виникла зовсім з іншої причини.
Я не є професіоналом, тому можу десь вжити не зовсім точні формулювання, але сподіваюся, мені вдасться передати вам суть. Уявіть собі інтернет-магазин. На сайті є форма пошуку товару за різними критеріями. На один і той же товар можна потрапити вживши різні фільтри. Наприклад, фільтр по виробниках може призвести до товару, який так само можна вибрати, застосувавши фільтр по ціні і габаритами. Використання різних фільтрів створює в URL сторінки різний шлях до товару. І один і той же товар може знаходитися на 2-3-4-х різних URL.
Ось тут починається плутанина, а яка з усіх цих сторінок є правильною і найважливішою? Яку сторінку показувати в результатах пошуку? Ось тут і приходить на виручку такий файл, як robots.txt. В якому зазначено, що всі URL, які виникли в результаті застосування фільтрів, індексувати не можна.
Відмінною особливістю всіх URL, які сформувалися в процесі вибору товарів, є присутність спеціальних символів або слів. Повернемося до наших блогах. Я пропоную вам розібрати один окремий випадок. Цей випадок не частий, але й не рідкісний, особливо, на початковому етапі ведення блогів, коли ми ще не все розуміємо. Прошу поставитися до цього випадку, як до віртуального приклад, тобто зовсім не обов'язково, що таке може бути у вас, але при цьому поставитися з усією серйозністю, тому що такі випадки все ж не рідкість.
Умова
Ви показуєте повний текст статті на головній, чи не ховаючи частину статті під кат.
Цій статті ви присвоїли ярлик, за яким у вас ще немає інших статей, крім цієї.
Зайдемо на нашу уявну статтю, вона має адресу
http: // мій_блог / дата / моя_стаття
Пам'ятайте, ви присвоїли цій статті ярлик, якого ще немає в жодної статті. Ви тільки що вирішили придумати писати на цю тему, та інших статей на цю тему у вас немає. Зайдемо на сторінку цього ярлика. Він має URL
http: // мій_блог / search / label / назва_ярлика
І що ми бачимо. На цій сторінці наша стаття, в повному варіанті, тому ми не ховаємо її під кат, і інших статей у нас взагалі немає.
У підсумку виходить, одна і та ж стаття присутня відразу за двома різними адресами. Яка з цих двох сторінок є правильною? Яка важливіше? Пошуковий робот не може визначити різницю між цими сторінками і вважає їх практично однаковими.
Ось до такого змістом пошукові роботи ставляться дуже негативно. І навіть, коли ми починаємо ховати статті під кат, і навіть, коли у нас по ярлику знаходиться кілька статей, пошуковій системі не подобається, що у нас взагалі складаються такі сторінки. Така ситуація носить назву - дублювання контенту.
Тому, щоб пошукові системи не лаялися, щоб краще ранжирували наш блог, у файлі robots.txt стоїть запис:
User-agent: *
Disallow: / search
Яка означає, що будь-які роботи всіх пошукових систем не повинні індексувати сторінки, які мають в собі директиву / search. Це зроблено для нашого блага розробниками платформи. І виявивши в інструментах попередження, що якісь сторінки заблоковано (заборонені) файлом robots.txt, не потрібно впадати в паніку і переживати, що на вашому сайті щось не індексується.
Схожа ситуація складається і з архівами. Наприклад, у вас на головній сторінці блогу відображається 10 статей. Адреса головної сторінки
http: // мій_блог
І так виходить, що всі ці 10 статей написані в листопаді. Багато хто використовує віджет Архів. Виберемо в архіві листопада, ми побачимо все ті ж 10 статей, які зараз знаходяться на головній сторінці блогу, але в адресному рядку браузера ми бачимо зовсім інший URL
http: //мій_блог/2010_11_01_archive.html
Одне і теж зміст за різними адресами. Ось такі сторінки архіву ми навмисно забороняємо до індексації через мета-теги.
Щось подібне складається через стандартного лістингу сторінок блогу не по окремих статтях, а коли можна гортати головну сторінку. В результаті перегортання головної сторінки утворюються адреси виду
http: // мій_блог / search? updated-max = 2010-06-17T16% 3A17% 3A00% 2B03% 3A00 & max-results = 7
Здавалося б, в URL цієї сторінки міститься директива / search, але я звернула увагу, що Google постійно індексує ці сторінки. Саме тому в мене немає лістингу по сторінках. Я його просто видалила, щоб не складалося таких сторінок. При цьому все, що трапляються в пошуку, я видаляю вручну в інструментах веб-майстра на вкладці Конфігурація сайту - Доступ для сканера - Видалити URL.
Часто в індекс Google (в Яндекс я з таким не стикалася) потрапляють і сторінки Ярликів, які заборонені файлом robots.txt. Всі такі URL я так само видаляю в інструментах вебмастера Google.
Основна проблема блогів Blogger / blogspot полягає в тому, що у нас немає доступу до файлу robots.txt, який ми могли б змінити самостійно так, як хочемо. У нас взагалі немає іншого дуже важливого файлу sitemap.xml в якому ми могли б вказати важливі сторінки свого блогу. Це проблема всіх безкоштовних блогових платформ. І тут нічого неможливо з цим вдіяти. Ми можемо тільки змиритися і періодично перевіряти індексацію, видаляючи сторінки, які випадково потрапили в індекс пошукової системи.
Ваша стаття застаріла, зараз є доступ до файла robots.txt через головне меню, настройки, настройки поиска.
ВідповістиВидалитиДякую за відгук,
ВидалитиАле хіба в статті вказано, що немає доступу до robots.txt?
читайте уважніше