Поиск поддоменов в Яндексе с помощью документированных операторов

Автор: Павел Лукин — seo-маркетолог. Более 3,5 лет проработал в петербургской веб-студии, за которые помог увеличить видимость в поисковых системах примерно 70-ти проектам. С 2013 года работает seo-специалистом в интернет-магазине 220 Вольт. Последний год на должности ведущего seo-специалиста.

 

В середине марта 2017 на Searchengines.ru была опубликована статья Сергея Людкевича, в которой он предложил способы поиска поддоменов сайта в индексе Яндекс и Google с помощью операторов поиска.

Для Яндекса способ был основан на использовании оператора поиска по сайту site: с последующим исключением поддоменов через оператор отрицания в пределах документа ~~ и оператора host (поиск по страницам, размещенным на данном хосте).

Данный способ отлично работал, пока Яндекс не перестал поддерживать оператор отрицания ~~. И теперь данный запрос не исключает основной домен и поддомены.

Какое-то время эту проблему можно было обойти, используя вместо ~~ оператор ~ (исключение слов в пределах предложения), но и он перестал работать.

В итоге, после кастрации языка запросов, у Яндекса остался всего один оператор, который хоть что-то исключает из выдачи — это оператор (поиск документов, в которых отсутствует заданное слово, исключает только слово, перед которым поставлен). Данный оператор и решено было использовать.

Однако, не работает вместе с другими операторами, а работает только со словами.

Тут нужно сделать небольшое отступление. Первоначально задача поиска поддоменов решалась автором для прикладного анализа другого сайта — vseinstrumenti.ru. И, в отличие от сайта yandex.ru, этот сайт имеет основное зеркало с префиксом www — http://www.vseinstrumenti.ru, в то время как у Яндекса без (интересно, что ни host:в robots.txt, ни 301 редирект не прописан).

Учитывая, что одним из текстовых факторов ранжирования является вхождение запроса в url, именно префикс www и было решено использовать в качестве того слова, исключив которое, можно получить поддомены. Данная гипотеза не подтвердилась: поочередное исключение префикса www, а затем других префиксов основного домена не исключает основное зеркало и поддомены, а перегруппировывает выдачу таким образом, что поддомены оказываются на первой странице.

Таким образом можно дойти до пределов поисковой строки в 400 символов, и станет видно, что основной домен и поддомены присутствуют в выдаче, а не исключаются (хотя количество найденных результатов может изменяться, что путает).

Зато данный метод менее ограничен вместимостью поисковой строки.

В дополнение к способу выше, был найден способ получать поддомены, подсмотренный в справке самого Яндекса. В ней приведен пример для описания оператора rhost: (Поиск по страницам, размещенным на данном хосте. Идентичен оператору host:, но имя хоста записывается в обратном порядке: сначала домен верхнего уровня, затем домен второго уровня и т. д.)

То есть в случае, когда у основного домена главное зеркало без префикса www (как у Яндекса), получить выдачу с его поддоменами можно, используя запрос rhost:ru.yandex.* Далее остается лишь поочередно исключать префиксы, чтобы найти новые поддомены:

Но, как оказалось, данная связка операторов имеет ограничение по длине запроса в 40 слов (хотя в поисковой строке место еще оставалось).

Несмотря на запись «Исключены результаты со словами», данным способом поддомены тоже не исключаются, что можно легко проверить на каком-нибудь маленьком сайте.

Кроме этого, оператор имеет существенный недостаток: он снимает сужение выдачи до сайта при минусовке префиксов домена, состоящих полностью из чисел.

Но, к счастью, поддомены полностью из цифр встречаются не так часто, как с  буквами.

Таким образом, можно сделать вывод, что данными способами нельзя решить в полном объеме задачу поиска поддоменов через индекс Яндекса (даже если бы операторы все исключали корректно). Но выявленный эффект вполне можно использовать для анализа сайтов.

И, напоследок, — частный случай решения задачи поиска поддоменов — найти региональные поддомены интернет-магазина. Можно поискать повторяющийся фрагмент текста в контенте главной страницы по сайту через оператор site:.

Источник: searchengines.ru

Оцените статью
Добавить комментарий