Статьи

Как исключить контент WordPress из поиска Google

Иногда вам нужно исключить определенный контент или файлы WordPress из индексации в результатах поиска Google. Индекс, или «индексация», до появления Google и других поисковых систем, в основном ассоциировался с книгами. Обычно он находится в конце большинства книг, и поэтому Кембриджский словарь определяет его в этом контексте как:

Индекс: алфавитный список, например, напечатанный в конце книги, показывающий, на какой странице находится тема, имя и т.д.

Перенесемся в 1995 год, во время интернет-бума, у нас были такие службы, как поисковая система Yahoo, а в 1997 году поиск Google кардинально изменил способ поиска и доступа к информации в Интернете.

Согласно опросу, проведенному в январе 2018 года, в Интернете есть 1 805 260 010 (более 1,8 миллиарда) веб-сайтов, и многие из этих веб-сайтов вообще не получают посетителей.

Что такое индексирование Google?

Существуют разные поисковые системы с разным форматом индексации, но популярные поисковые системы включают Google, Bing и duckduckgo для лиц, заботящихся о конфиденциальности.

Индексирование Google обычно относится к процессу добавления новых веб-страниц, включая цифровой контент, такого как документы, видео и изображения, и их сохранения в своей базе данных. Другими словами, чтобы содержание вашего сайта появлялось в результатах поиска Google, их сначала необходимо сохранить в индексе Google.

Как исключить контент WordPress из поиска Google

Google может индексировать все эти цифровые страницы и контент с помощью своих «пауков», поисковых роботов или ботов, которые постоянно сканируют различные веб-сайты в Интернете. Эти боты и сканеры действительно следуют инструкциям владельцев веб-сайтов о том, что сканировать, а что следует игнорировать во время сканирования.

Зачем нужно индексировать сайты?

В эту эпоху цифровых технологий практически невозможно перемещаться по миллиардам веб-сайтов в поисках определенной темы и контента. Будет намного проще, если будет инструмент, показывающий, какие сайты заслуживают доверия, какой контент полезен и актуален для нас. Вот почему Google существует и оценивает веб-сайты в результатах поиска.

Индексирование становится неотъемлемой частью работы поисковых систем в целом и Google в частности. Он помогает определять слова и выражения, которые лучше всего описывают страницу, и в целом способствует ранжированию страницы и веб-сайта. Чтобы ваш веб-сайт появился на первой странице Google, включая веб-страницы и цифровые файлы, такие как видео, изображения и документы, сначала необходимо проиндексировать.

Индексирование является необходимым условием для того, чтобы веб-сайты занимали высокие позиции в поисковых системах в целом и в Google в частности. Использование ключевых слов позволяет лучше увидеть и обнаружить сайты после того, как они будут проиндексированы и ранжированы поисковыми системами. Это открывает двери для большего количества посетителей, подписчиков и потенциальных клиентов для вашего веб-сайта и бизнеса.

Лучшее место, чтобы спрятать труп – вторая страница Google.

Хотя наличие большого количества проиндексированных страниц автоматически не повышает рейтинг ваших сайтов, если содержание этих страниц также является высококачественным, вы можете получить повышение с точки зрения SEO.

Почему и как запретить поисковой системе индексировать контент

Хотя индексирование отлично подходит для владельцев веб-сайтов и бизнеса, есть страницы, которые могут не отображаться в результатах поиска. вы также можете рискнуть раскрыть конфиденциальные файлы и контент через Интернет. Без паролей или аутентификации частный контент подвергается риску раскрытия и несанкционированного доступа, если ботам дается полная свобода действий в папках и файлах вашего веб-сайта.

В начале 2000-х хакеры использовали поиск Google для отображения информации о кредитных картах с веб-сайтов с помощью простых поисковых запросов. Этот недостаток безопасности использовался многими хакерами для кражи информации о картах с веб-сайтов электронной коммерции.

Еще одна недавняя уязвимость произошла в прошлом году в популярной облачной системе хранения данных box.com. Брешь в системе безопасности была обнаружена Маркусом Нейсом, менеджером по анализу угроз Swisscom. Он сообщил, что простые эксплойты поисковых систем, включая Google и Bing, могут раскрыть конфиденциальные файлы и информацию многих коммерческих и индивидуальных клиентов.

Подобные случаи действительно происходят в Интернете и могут привести к потере продаж и доходов владельцев бизнеса. Для корпоративных сайтов, сайтов электронной коммерции и членских сайтов критически важно сначала заблокировать поисковую индексацию конфиденциального контента и личных файлов, а затем, вероятно, поместить их в достойную систему аутентификации пользователей.

Давайте посмотрим, как вы можете контролировать, какой контент и файлы могут сканироваться и индексироваться Google и другими поисковыми системами.

1 Использование Robots.txt для изображений

Robots.txt – это файл, расположенный в корне вашего сайта, который предоставляет роботам Google, Bing и других поисковых систем инструкции о том, что сканировать, а что нет. Хотя robots.txt обычно используется для управления поисковым трафиком и поисковыми роботами (мобильными и настольными), его также можно использовать для предотвращения появления изображений в результатах поиска Google.

Файл robots.txt обычных веб-сайтов WordPress будет выглядеть так:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Стандартный файл robots.txt начинается с инструкции для пользовательского агента и символа звездочки. Звездочка – это инструкция для всех ботов, которые приходят на сайт, следовать всем инструкциям, приведенным ниже.

Держите ботов подальше от определенных цифровых файлов, используя Robot.txt

Robots.txt также можно использовать, чтобы остановить сканирование поисковыми системами цифровых файлов, таких как PDF, JPEG или MP4. Чтобы заблокировать сканирование файлов PDF и JPEG при поиске, необходимо добавить в файл robots.txt следующее:

PDF файлы

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$ # Block pdf files from all bots. Albeit non-standard, it works for major search engines.

Картинки

User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.

Если вы хотите заблокировать индексирование и отображение всех изображений .GIF в поиске изображений Google, разрешив при этом другие форматы изображений, такие как JPEG и PNG, вам следует использовать следующие правила:

User-agent: Googlebot-Image
Disallow: /*.gif$

Важно: приведенные выше фрагменты просто исключат ваш контент из индексации сторонними сайтами, такими как Google. Они по-прежнему доступны, если кто-то знает, где искать. Чтобы сделать файлы приватными, чтобы никто не мог получить к ним доступ, вам нужно будет использовать другой метод, например, эти плагины ограничения содержимого.

Googlebot-Image может использоваться для блокировки изображений и определенного расширения изображения от появления в поиске изображений Google. Если вы хотите исключить их из всех поисков Google, например, из веб-поиска и изображений, рекомендуется вместо этого использовать пользовательский агент Googlebot.

Другие пользовательские агенты Google для различных элементов на веб-сайте включают Googlebot-Video для видео, применяемых в разделе видео Google в Интернете. Точно так же использование пользовательского агента Googlebot заблокирует отображение всех видео в видеороликах Google, веб-поиске или мобильном веб-поиске.

Как исключить контент WordPress из поиска Google

Имейте в виду, что использование Robots.txt не является подходящим методом блокировки важных или конфиденциальных файлов и содержимого из-за следующих ограничений:

  • Robots.txt может инструктировать только хорошо подготовленных поисковых роботов; другие несовместимые поисковые системы и боты могут просто игнорировать его инструкции.
  • Robots.txt не мешает вашему серверу отправлять эти страницы и файлы неавторизованным пользователям по запросу.
  • Поисковые системы по-прежнему могут находить и индексировать заблокированные вами страницы и контент, если на них есть ссылки с других веб-сайтов и источников.
  • Robots.txt доступен для всех, кто затем сможет прочитать все предоставленные вами инструкции и получить прямой доступ к этому контенту и файлам.

Чтобы заблокировать поисковую индексацию и более эффективно защитить вашу личную информацию, используйте вместо этого следующие методы.

2 Использование метатега без индекса для страниц

Использование метатега без индексации – правильный и более эффективный метод блокирования поисковой индексации конфиденциального контента на вашем веб-сайте. В отличие от robots.txt, метатег без индекса помещается в раздел веб-страницы с помощью очень простого тега HTML:

<html>
<head>
<title>…</title>
<meta name=»robots» content=»noindex»>
</head>

Ни одна страница с этой инструкцией в заголовке не будет отображаться в результатах поиска Google. Другие директивы, такие как nofollow и notranslate, также могут быть использованы для указания веб-сканерам не сканировать ссылки и предлагают перевод этой страницы соответственно.

Вы можете указать несколько поисковых роботов, используя несколько метатегов на странице следующим образом:

<html>
<head>
<title>…</title>
<meta name=»googlebot» content=»nofollow»>
<meta name=»googlebot-news» content=»nosnippet»>
</head>

Есть два способа добавить этот код на свой сайт. Ваш первый вариант – создать дочернюю тему WordPress, а затем в файле functions.php вы можете использовать обработчик действия WordPress wp_head, чтобы вставить noindex или любые другие метатеги. Ниже приведен пример того, как вы бы не индексировали свою страницу входа.

add_action( ‘wp_head’, function() {
if (is_page( ‘login’) ) {
echo ‘<meta name=»robots» content=»noindex»>’;
}
} );

Второй вариант – использовать плагин SEO для управления видимостью страницы. Например, с помощью Yoast SEO вы можете перейти в раздел дополнительных настроек на странице и просто выбрать «Нет» для параметров, позволяющих поисковой системе отображать страницу:

Как исключить контент WordPress из поиска Google

3 Использование HTTP-заголовка X-Robots-Tag для других файлов.

X-Robots-Tag дает вам больше гибкости, чтобы блокировать поисковую индексацию вашего контента и файлов. В частности, по сравнению с метатегом без индекса, он может использоваться в качестве ответа HTTP-заголовка для любых заданных URL-адресов. Например, вы можете использовать X-Robots-Tag для файлов изображений, видео и документов, где невозможно использовать метатеги robots.

Вы можете прочитать полное руководство Google по метатегам роботов, но вот как вы можете указать сканерам не отслеживать и индексировать изображение JPEG с помощью X-Robots-Tag в его HTTP-ответе:

HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

Любые директивы, которые можно использовать с метатегом robots, также применимы к X-Robots-Tag. Точно так же вы можете проинструктировать несколько роботов поисковых систем:

HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

Важно отметить, что боты поисковых систем обнаруживают метатеги Robots и HTTP-заголовки X-Robots-Tag во время процесса сканирования. Поэтому, если вы хотите, чтобы эти боты следовали вашим инструкциям, чтобы не отслеживать и не индексировать какой-либо конфиденциальный контент и документы, вы не должны останавливать сканирование URL-адресов этих страниц и файлов.

Если им заблокировано сканирование с помощью файла robots.txt, ваши инструкции по индексации не будут прочитаны, а значит, проигнорированы. В результате, если другие веб-сайты ссылаются на ваш контент и документы, они все равно будут индексироваться Google и другими поисковыми системами.

4 Использование правил .htaccess для серверов Apache

Вы также можете добавить HTTP-заголовок X-Robots-Tag в свой файл .htaccess, чтобы запретить поисковым роботам индексировать страницы и цифровое содержимое вашего веб-сайта, размещенного на сервере Apache. В отличие от метатегов без индекса, правила .htaccess могут применяться ко всему веб-сайту или к определенной папке. Его поддержка регулярных выражений предлагает еще большую гибкость для одновременной работы с несколькими типами файлов.

Чтобы запретить роботам Googlebot, Bing и Baidu сканировать веб-сайт или специальный каталог, используйте следующие правила:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC] RewriteRule .* — [R=403,L]

Чтобы заблокировать поисковую индексацию всех файлов .txt, .jpg, .jpeg, .pdf на всем вашем веб-сайте, добавьте следующий фрагмент:

<Files ~ «.(txt|jpg|jpeg|pdf)$»>
Header set X-Robots-Tag «noindex, nofollow»
</FilesMatch>

5 Использование аутентификации страницы с использованием имени пользователя и пароля

Вышеуказанные методы предотвратят появление вашего личного содержания и документов в результатах поиска Google. Однако любые пользователи, у которых есть ссылка, могут получить доступ к вашему контенту и получить доступ к вашим файлам напрямую. В целях безопасности настоятельно рекомендуется настроить правильную аутентификацию с использованием имени пользователя и пароля, а также разрешения на доступ к ролям.

Как исключить контент WordPress из поиска Google

Например, страницы, содержащие личные профили сотрудников и конфиденциальные документы, к которым не должны иметь доступ анонимные пользователи, должны быть помещены за шлюз аутентификации. Таким образом, даже когда пользователям каким-то образом удается найти страницы, им будет предложено ввести учетные данные, прежде чем они смогут проверить контент.

Как исключить контент WordPress из поиска Google

Чтобы сделать это с помощью WordPress, просто установите видимость публикации, защищенную паролем. Таким образом, вы можете выбрать пароль, необходимый для просмотра содержимого на этой странице. Это довольно легко сделать для каждой публикации / страницы. Для более полной конфиденциальности сайта попробуйте добавить один из этих плагинов членства WordPress на свой сайт.

Помните, что защищенные паролем или скрытые от поисковых систем и посетителей страницы не обязательно защищают документы, видео и изображения, прикрепленные к его содержанию. Для реальной защиты ваших загрузок файлов WordPress вам понадобится услуга премиум-класса, такая как 5 способов исключить контент и файлы на вашем сайте WordPress из результатов поиска. Узнайте, как можно без индексации страниц в Google и других поисковых системах. “} 5 способов исключить контент и файлы на вашем сайте WordPress из результатов поиска. Узнайте, как можно без индексации страниц в Google и других поисковых системах. “}

Кнопка «Наверх»