Дохід у Мереживі

Як пройти крізь інтернет-хащі, не потонути в (інтер)нетрях, вибратись із (інет)трісця й дістатись сяйних вершин доходу й прибутку.

Армія роботів Яндексу

13.03.2010 · 3 коментарів · Безпека

Дописовий: Only new DivX movies to download online

Гаразд, можливо, не армія, але полк – це точно. Зі своїми ротами, відділеннями й взводами.

Властиво, автор і раніше знав, що тих роботів Яндекс має кілька видів, але що їх стільки – ні. Але от нещодавно, в зв’язку із дослідженням фільтрів Яндексу, вирішив переглянути, як накладання таких фільтрів позначається на індексації й, відповідно, на роботі пошукових роботів, і побачив, що різновидів тих роботів таки чимало. Отже, в цьому дописі, автор спробує підсумувати свої висліди щодо типології роботів, а їхню поведінку на ділянках (як під фільтрами так і в індексі) прокоментуємо окремо.

У цій роботі, мабуть, це також буде цікаво, автор використовував причепу (plugin) Восап (Wossup), який здатен показувати не лише відвідування користувачів, але й роботів, і більше того – показувати з якого вузла заходить робот, що часто залишають без уваги, зважаючи лише на рядок індетифікатор робота в параметрі User-Agent, що не дає повної інформації.

Окрім того, автор переглянув подійники (логи, log) служника. Звичайно, “неозброєним оком” то зробити складно, тому автор для пошуку заходів роботів по подійниках використовував иншу чудову й безплатну програму – PSPad. Рекомендую.

Тепер по темі.

Насамперед, слід згадати, що сам Яндекс описує своїх роботів (в тому числі, наводить ідентифікаційні рядки для параметра User-Agent) в підрозділі Как в логах сервера представляется робот і суміжних підрозділах. Хоча це мабуть найповніше й найавторитетніше джерело з цього питання, тут сказано не все.

Отже, по-перше, робота роботів-індексаторів. Цих роботів в Яндексу аби не сотня, принаймні, робот з вузла spider74.yandex.ru на одну з авторових ділянок заходить. Всі вони мають однаковий ідентифікаційний рядок “Yandex/1.01.001 (compatible; Win16; I)”, втім це не зовсім однакові роботи.

Так, більшість із них працює з вузлів із назвати на кшталт “spider??.yandex.ru”, але є принаймні три роботи, які працюють з инших вузлів:

  • turbospider.yandex.ru (77.88.22.224) – це, здається, так званий быстроробот
  • quicktest00.yandex.ru (95.108.142.154)
  • htest01.yandex.ru (95.108.142.150)

Причому, ці два останніх, складається враження, мають якийсь стосунок до накладання фільтру. Який саме – автор ще спробує з’ясувати.

Більше того, номенклатура роботів, як показує гілка Yandex/1.01.001 Spiders, Crawlers and web robots, насправді набагато ширша. Що вони роблять, з’ясувати поки що не вдається також. (Яндекс – це взагалі велика загадка: далеко не завжди можна зрозуміти, що то в нього – чергова “фіча” (можливість) чи “глюк”. Така думка звучить рефреном по всіх форумах. Але повернімося назад, до наших “баранів”-роботів.)

Далі йде відділення зображеннєвих роботів – вони призбирують зображення для відповідного типу пошуку. Їхній ідентифікаційний рядок “Yandex/1.01.001 (compatible; Win16; P)” (де “P”, треба так розуміти, picture – зображення). Таких роботів під два десятка, наскільки може судити автор з того, що назва вузла одного з них slovo15.yandex.ru. Прикметно також, що тим вузлам Яндекс дав якісь такі назви – від противного, мабуть.

Потім іде робот призбирувач favicon – невеличких іконок для ділянок, які Яндекс відображає в своїй пошуковій видачі. Його ідентифікаційний рядок “Yandex/1.02.000 (compatible; Win16; F)”, а назва вузла доволі незграбна ysbackup4.yandex.ru.

Окремо є спеціяльні роботи для додачі й, мабуть, перевірки сторінок, що додаються через форму «Добавить URL». Таких роботів, наскільки може судити автор три:

  • pray.yandex.ru (77.88.18.195)
  • maelstrom.yandex.ru (77.88.59.131)
  • charm.yandex.ru (77.88.59.133)

Їхній ідентифікаційний рядок “Yandex/1.03.003 (compatible; Win16; D)”.

Нарешті, є ще й мультимедійні роботи Yandex/1.01.001 (compatible; Win16; m), Yandex/1.03.000 (compatible; Win16; M), роботи для рекламної мережі Яндексу YaDirectBot/1.0 (compatible; Win16; I), в кількости НМСД п'ять штук (від nastenka01d.yandex.ru до nastenka05d.yandex.ru), робот пошуку по коментарях у плотах (блогах) YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot), і нарешті, роботи навідувачі Yandex/2.01.000 (compatible; Win16; Dyatel; ?), що перевіряють доступність ресурсів для певних сервісів Яндексу. Свого часу був також такий собі YandexSomething, але нині він, здається, “у відставці”.

Як бачите, чимало – таки справжній полк. Але, мабуть, є ще одна обставина, яка додатково заплутує ситуяцію. А саме, декотрі сторонні роботи, що не належать до мережі Яндексу, також називаються його іменем, мабуть, щоби трохи полегшити собі життя. Принаймні, в результаті недовгого знайомства зі своїми подійниками, автор знайшов трьох таких самозванців – їх можна розпізнати через зворотній запит до DNS.

Це те, що авторові відомо про предмет наразі. Чи можете ви, шановний відвідувач, прояснити щось додатково? Пишіть, будьласка в коментарі.

Доречні дописи:

  1. Яндекс АГС-17: чинники ризику й способи виходу

Лички: · · · · · ·

3 коментарів наразі ↓

Прокоментувати