Что такое поисковые роботы?
Поисковый робот — специальная программа, принадлежащая определенной поисковой системе и предназначенная для индексирования (занесения в базу сайтов поисковой системы) веб-сайтов и их страниц, найденных в интернет-пространстве. Также принятые названия: краулер, бот, паук, webcrawler, bot, automaticindexer, ant, webrobots, webspider, webscutter.
Поисковый робот — специальная программа, принадлежащая определенной поисковой системе и предназначенная для индексирования (занесения в базу сайтов поисковой системы) веб-сайтов и их страниц, найденных в интернет-пространстве. Также принятые названия: краулер, бот, паук, webcrawler, bot, automaticindexer, ant, webrobots, webspider, webscutter.
Полный #список поисковых роботов и их владельцев! Обновление 2020 #краулер, #бот, #паук, #webcrawler, #bot, #automaticindexer, #ant, #webrobots, #webspider, #webscutter, #crawler, #статистика #мойсайт #роботы #поисковики Share on XПринцип работы поисковых роботов (пауков)
Поисковый робот является программой браузерного типа. Он постоянно сканирует веб-пространство, посещая уже известные ему (проиндексированные) сайты, проходя по ссылкам с них и находя, таким образом, новые ресурсы. Обнаружив неизвестный сайт, и проведя некоторые процедуры, робот добавляет его в индекс поисковой системы.
Кроме того, поисковым роботом индексируются обновления на сайтах. Причем, периодичность обновлений фиксируется. К примеру, сайт, обновляемый раз в неделю, будет посещаться роботом с той же частотой, а информация на новостных сайтах может индексироваться уже через несколько минут.
Сайтам, не обладающим внешней ссылочной массой, то есть тем из них, на которые не ведут ссылки с других ресурсов, чтобы быть проиндексированными, необходимо привлечь внимание поисковых роботов. Для этого сайт добавляется в специальную форму поисковой системы. К примеру, в панель вебмастера Яндекс, или в Центр вебмастеров Google. Дополнительно, Вы можете посмотреть результаты работы поискового робота для Microsoft Bing.com, Mail.ru и Baidu.com
Виды поисковых роботов
На самом деле понятием «поисковый робот» объединена их некоторая совокупность. Каждая поисковая система улучшает процесс сканирования веб-пространства и индексацию, используя несколько роботов, наделенных более узкой специализацией. К примеру, поисковик Яндекс сегодня использует следующие, действующие одновременно боты:
- Yandex/1.01.001 (compatible; Win16; I) — это основной робот Яндекса, занимающийся индексацией.
- Yandex/1.01.001 (compatible; Win16; P) — его задача: индексация картинок.
- Yandex/1.01.001 (compatible; Win16; H) — предназначается для обнаружения зеркал сайтов.
- Yandex/1.03.003 (compatible; Win16; D) — определяет соответствие параметрам индексации страницы, добавленной через форму панели вебмастера. Он первым посещает добавленный ресурс, и только после его положительной оценки за работу принимается основной поисковый бот Yandex/1.01.001.
- Yandex/1.03.000 (compatible; Win16; M) — данный робот посещает страницу после ее открытия по ссылке «Найденные слова» в поисковой выдаче.
- YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса.
- Yandex/1.02.000 (compatible; Win16; F) — отвечает за индексацию фав-иконок сайтов.
Второй по значимости в Рунете поисковик Google использует похожих по функциям поисковых роботов:
- Робот Googlebot — основной индексирующий робот системы.
- Googlebot News — специально созданный для сканирования и индексирования новостей робот.
- Googlebot Images — робот, занимающийся поиском и индексацией изображений.
- Googlebot Video — поиск и индексация видео.
- Google Mobile — индексация сайтов для мобильных устройств.
- Google AdSense и Google Mobile AdSense — индексация сайтов, участвующих в рекламной сети Google.
- Google AdsBot — робот, проверяющий качество целевой страницы.
Другие поисковые системы также используют несколько видов роботов, функционально схожих с перечисленными.
Список наиболее популярных поисковых систем
Имена поисковых роботов наиболее популярных поисковых систем: Яндекс — «Yandex». Google — «googlebot». MSN(Bing) — «msnbot». Yahoo! — «Yahoo! Slurp».
Управление индексацией сайта поисковыми роботами
Несмотря на то, что чтобы быть замеченным, сайт должен оказаться проиндексированным, далеко не всегда требуется, чтобы вся информация с него была доступна пользователям и, соответственно, поисковому роботу. К примеру, интернет-магазины закрывают от индексации страницы с реквизитами покупателей, значительная часть сайтов — административные данные и т.п.
Закрыть от индексации поисковыми роботами все содержимое сайта или только часть информации, размещенной на нем, можно с помощью файла robots.txt. В нем, согласно определенным правилам, с помощью специальных директив в текстовом формате прописываются указания для поисковых роботов. Надо заметить, что роботы, попадая на сайт, ищут в первую очередь файл robots.txt. Знакомятся с инструкциями (если файл существует) и в соответствии с ними индексируют страницы.
Директивы файла robots.txt:
- User-agent — обращение к конкретному роботу конкретной поисковой системы.
- Disallow — может закрывать как весь сайт, так и отдельные его файлы и страницы.
- Host — сигнализирует роботу, под URL какого зеркала (если сайт имеет зеркала) индексируется ресурс.
Скачать: Основы поисковой оптимизации – теория и практика
Определить, какой робот зашел на сайт, можно с помощью лог-файла, который обычно доступен либо в админке, либо на ftp. Все существующие роботы представляются по одной схеме, но каждый имеет свое название. Например: «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)» — основной индексирующий робот поисковой системы Яндекс.
Поисковые боты Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) Mediapartners-Google Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) AdsBot-Google (+http://www.google.com/adsbot.html) Googlebot-Image/1.0 Googlebot-News Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Googlebot/2.1 (+http://www.google.com/bot.html) Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Mediapartners-Google/2.1; +http://www.google.com/bot.html AdsBot-Google-Mobile-Apps
User-Agent Яндекс бота
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexCatalog/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots) Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36 (compatible; YandexMedianaBot/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots) Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots)
Поисковые боты Mail.Ru представляются так:
Mozilla/5.0 (compatible; Mail.RU_Bot/Fast/2.0)
Поисковые роботы системы Рамблер:
StackRambler/2.0 (MSIE incompatible) StackRambler/2.0
Боты Yahoo:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
Боты поисковой системы MSN:
msnbot/1.1 (+http://search.msn.com/msnbot.htm) msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) msnbot-news (+http://search.msn.com/msnbot.htm)
Бот поисковика Bing:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm
Поисковые роботы китайского Baidu:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html Mozilla/5.0 (Linux;u;Android 2.3.7;zh-cn;) AppleWebKit/533.1 (KHTMLlike Gecko) Version/4.0 Mobile Safari/533.1 (compatible; +http://www.baidu.com/search/spider.html) Baiduspider+(+http://www.baidu.com/search/spider.htm) Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) Baiduspider-image+(+http://www.baidu.com/search/spider.htm) Mozilla/5.0 (compatible; heritrix/3.1.1 +http://www.baidu.com) Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (Linux;u;Android 2.3.7;zh-cn;) AppleWebKit/533.1 (KHTML,like Gecko) Version/4.0 Mobile Safari/533.1 (compatible; +http://www.baidu.com/search/spi_der.html) User-Agent:Mozilla/5.0 (Linux;u;Android 2.3.7;zh-cn;) AppleWebKit/533.1 (KHTMLlike Gecko) Version/4.0 Mobile Safari/533.1 (compatible; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (Linux;u;Android 2.3.7;zh-cn;HTC Desire Build) AppleWebKit/533.1 (KHTMLlike Gecko) Version/4.0 Mobile Safari/533.1 (compatible; +http://www.baidu.com/search/spider.html)
Это основные поисковые роботы, с результатами работы которых мы сталкиваемся каждый день! еще 307 поисковых ботов Вы найдете здесь!
Он точно знал, что происходит!
3 комментария на «“Поисковый робот: User-Agent ботов поисковых систем [Всего: 307 роботов]”»
Liebe Emilia,
Einfach danke für die super Arbeit.
So viel info über die Suchrobots! Super!
Хороший, объемный список получился
Очень рады, что наш список поисковых роботов пришелся тебе по вкусу и видимо принес определенную пользу!