robots.txt: универсальный файл для интернет-магазина на Webasyst Shop Script. Инструкция по внедрению

Ниже представлен шаблонный robots.txt для интернет-магазинов на Webasyst Shop Script. Данный шаблон robots.txt подойдет для 99% интернет-магазинов. Обратите внимание на выделенные в шаблоне строчки красным цветом: их необходимо перед размещением подкоррективать.

Чикуров Анатолий
Для тех кто хочет немного теории - есть отдельная статья на тему "Правильная настройка индексации интернет-магазина на Shop Script". Ссылка на статью.
Инструкция по внедрению robots.txt на основную витрину сайта
  1. Скопируйте себе весь код для основной витрины сайта.
  2. Если вы используете страницы тегов в качестве посадочных страниц - удалите строчки "Disallow: */tag/" (3 раза).
  3. Если вы используете страницы отзывов о товарах в качестве посадочных страниц - удалите строчки "Disallow: */reviews/" (3 раза).
  4. В строчке "Sitemap: https://site.ru/sitemap.xml" укажите домен своего сайта вместо "site.ru" (3 раза).
  5. Если вам необходимо добавить дополнительные директивы - рекомендую вывести их в блоке "## individual rules ##" (3 раза).
  6. Убедитесь, что вы внесли изменения 3 раза для каждого User-agent-а: для Yandex, для Google, и для всех остальных роботов (User-agent: *)
  7. Введите итоговый код в настройках («админка» --> «Сайт» --> «*выбрать основную витрину из списка*» --> «Настройки сайта» --> «поле "robots.txt"»
  8. Обязательно проверьте файл robots.txt на основной витрине после внесения изменений (доступен по адресу https://site.ru/robots.txt).

Шаблон robots.txt для основной витрины сайта

  1. #upd 10.08.2023
  2. #author: @anatoly_chikurov
  3. User-agent: Yandex
  4. ## googleonly usual storefronts ##
  5. Disallow: */city/
  6. ## googleonly opt storefronts ##
  7. ## system hidden pages ##
  8. Disallow: *admin/
  9. Disallow: *helpdesk/
  10. Disallow: *cml1c/
  11. Disallow: */vk/
  12. Disallow: */turbo/
  13. Disallow: */logs/
  14. Disallow: *multiform/
  15. Disallow: *webasyst/
  16. Disallow: */test/
  17. Disallow: */old/
  18. Disallow: *.html
  19. Disallow: *.php
  20. Disallow: *.pdf
  21. Disallow: */amp/
  22. ## info and service pages ##
  23. Disallow: *search
  24. Disallow: *mailer/
  25. Disallow: *login/
  26. Disallow: *signup/
  27. Disallow: *forgotpassword/
  28. Disallow: *order/
  29. Disallow: */cart/
  30. Disallow: *onestep/
  31. Disallow: *checkout
  32. Disallow: */my/
  33. ## service links ##
  34. Disallow: *tel:
  35. Disallow: *skype:
  36. Disallow: *mailto:
  37. Disallow: *tg:
  38. Disallow: *viber:
  39. ## garbage and dublicates ##
  40. Disallow: *undefined
  41. Disallow: *compare/
  42. Disallow: *?
  43. Allow: *.*?
  44. Allow: *config/?
  45. Allow: *?page=
  46. Disallow: *?page=*&
  47. Disallow: *&page=
  48. Disallow: *?page=1
  49. Allow: *?page=10
  50. Allow: *?page=11
  51. Allow: *?page=12
  52. Allow: *?page=13
  53. Allow: *?page=14
  54. Allow: *?page=15
  55. Allow: *?page=16
  56. Allow: *?page=17
  57. Allow: *?page=18
  58. Allow: *?page=19
  59. Disallow: *?page=10*&
  60. Disallow: *?page=11*&
  61. Disallow: *?page=12*&
  62. Disallow: *?page=13*&
  63. Disallow: *?page=14*&
  64. Disallow: *?page=15*&
  65. Disallow: *?page=16*&
  66. Disallow: *?page=17*&
  67. Disallow: *?page=18*&
  68. Disallow: *?page=19*&
  69. Disallow: *product*/?page=
  70. ## blog garbage ##
  71. Disallow: */author/
  72. Disallow: */2015/
  73. Disallow: */2016/
  74. Disallow: */2017/
  75. Disallow: */2018/
  76. Disallow: */2019/
  77. Disallow: */2020/
  78. Disallow: */2021/
  79. Disallow: */2022/
  80. Disallow: */2023/
  81. Disallow: */2024/
  82. Disallow: */2025/
  83. Disallow: */2026/
  84. Disallow: */2027/
  85. Disallow: */2028/
  86. Disallow: */2029/
  87. Disallow: */2030/
  88. Disallow: */2031/
  89. Disallow: */2032/
  90. Disallow: */2033/
  91. Disallow: */2034/
  92. Disallow: */2035/
  93. Allow: /product/20*/
  94. Disallow: /product/20*/?
  95. ## individual rules ##
  96. Disallow: */tag/
  97. Disallow: */reviews/
  98. ## end ##
  99. Clean-param: from&clid&pclid&promo&utm&utm_referrer&utm_medium&utm_source&utm_campaign&utm_term&utm_content&gclid&openstat&cpc&test&dev&sort&order&tip&tsvet&brend&brand&strana&price_min&price_max&showall&frommarket&nomobile&mobile&crcy&promo_id
  100. Sitemap: https://site.ru/sitemap.xml
  101. User-agent: Googlebot
  102. ## system hidden pages ##
  103. Disallow: *admin/
  104. Disallow: *helpdesk/
  105. Disallow: *cml1c/
  106. Disallow: */vk/
  107. Disallow: */turbo/
  108. Disallow: */logs/
  109. Disallow: *multiform/
  110. Disallow: *webasyst/
  111. Disallow: */test/
  112. Disallow: */old/
  113. Disallow: *.html
  114. Disallow: *.php
  115. Disallow: *.pdf
  116. ## info and service pages ##
  117. Disallow: *search
  118. Disallow: *mailer/
  119. Disallow: *login/
  120. Disallow: *signup/
  121. Disallow: *forgotpassword/
  122. Disallow: *order/
  123. Disallow: */cart/
  124. Disallow: *onestep/
  125. Disallow: *checkout
  126. Disallow: */my/
  127. ## service links ##
  128. Disallow: *tel:
  129. Disallow: *skype:
  130. Disallow: *mailto:
  131. Disallow: *tg:
  132. Disallow: *viber:
  133. ## garbage and dublicates ##
  134. Disallow: *undefined
  135. Disallow: *compare/
  136. Disallow: *?
  137. Allow: *.*?
  138. Allow: *config/?
  139. Allow: *?page=
  140. Disallow: *?page=*&
  141. Disallow: *&page=
  142. Disallow: *?page=1
  143. Allow: *?page=10
  144. Allow: *?page=11
  145. Allow: *?page=12
  146. Allow: *?page=13
  147. Allow: *?page=14
  148. Allow: *?page=15
  149. Allow: *?page=16
  150. Allow: *?page=17
  151. Allow: *?page=18
  152. Allow: *?page=19
  153. Disallow: *?page=10*&
  154. Disallow: *?page=11*&
  155. Disallow: *?page=12*&
  156. Disallow: *?page=13*&
  157. Disallow: *?page=14*&
  158. Disallow: *?page=15*&
  159. Disallow: *?page=16*&
  160. Disallow: *?page=17*&
  161. Disallow: *?page=18*&
  162. Disallow: *?page=19*&
  163. Disallow: *product*/?page=
  164. Allow: *utm_source=
  165. ## blog garbage ##
  166. Disallow: */author/
  167. Disallow: */2015/
  168. Disallow: */2016/
  169. Disallow: */2017/
  170. Disallow: */2018/
  171. Disallow: */2019/
  172. Disallow: */2020/
  173. Disallow: */2021/
  174. Disallow: */2022/
  175. Disallow: */2023/
  176. Disallow: */2024/
  177. Disallow: */2025/
  178. Disallow: */2026/
  179. Disallow: */2027/
  180. Disallow: */2028/
  181. Disallow: */2029/
  182. Disallow: */2030/
  183. Disallow: */2031/
  184. Disallow: */2032/
  185. Disallow: */2033/
  186. Disallow: */2034/
  187. Disallow: */2035/
  188. Allow: /product/20*/
  189. Disallow: /product/20*/?
  190. ## individual rules ##
  191. Disallow: */tag/
  192. Disallow: */reviews/
  193. ## end ##
  194. Sitemap: https://site.ru/sitemap.xml
  195. User-agent: *
  196. ## googleonly usual storefronts ##
  197. Disallow: */city/
  198. ## googleonly opt storefronts ##
  199. ## system hidden pages ##
  200. Disallow: *admin/
  201. Disallow: *helpdesk/
  202. Disallow: *cml1c/
  203. Disallow: */vk/
  204. Disallow: */turbo/
  205. Disallow: */logs/
  206. Disallow: *multiform/
  207. Disallow: *webasyst/
  208. Disallow: */test/
  209. Disallow: */old/
  210. Disallow: *.html
  211. Disallow: *.php
  212. Disallow: *.pdf
  213. Disallow: */amp/
  214. ## info and service pages ##
  215. Disallow: *search
  216. Disallow: *mailer/
  217. Disallow: *login/
  218. Disallow: *signup/
  219. Disallow: *forgotpassword/
  220. Disallow: *order/
  221. Disallow: */cart/
  222. Disallow: *onestep/
  223. Disallow: *checkout
  224. Disallow: */my/
  225. ## service links ##
  226. Disallow: *tel:
  227. Disallow: *skype:
  228. Disallow: *mailto:
  229. Disallow: *tg:
  230. Disallow: *viber:
  231. ## garbage and dublicates ##
  232. Disallow: *undefined
  233. Disallow: *compare/
  234. Disallow: *?
  235. Allow: *.*?
  236. Allow: *config/?
  237. Allow: *?page=
  238. Disallow: *?page=*&
  239. Disallow: *&page=
  240. Disallow: *?page=1
  241. Allow: *?page=10
  242. Allow: *?page=11
  243. Allow: *?page=12
  244. Allow: *?page=13
  245. Allow: *?page=14
  246. Allow: *?page=15
  247. Allow: *?page=16
  248. Allow: *?page=17
  249. Allow: *?page=18
  250. Allow: *?page=19
  251. Disallow: *?page=10*&
  252. Disallow: *?page=11*&
  253. Disallow: *?page=12*&
  254. Disallow: *?page=13*&
  255. Disallow: *?page=14*&
  256. Disallow: *?page=15*&
  257. Disallow: *?page=16*&
  258. Disallow: *?page=17*&
  259. Disallow: *?page=18*&
  260. Disallow: *?page=19*&
  261. Disallow: *product*/?page=
  262. ## blog garbage ##
  263. Disallow: */author/
  264. Disallow: */2015/
  265. Disallow: */2016/
  266. Disallow: */2017/
  267. Disallow: */2018/
  268. Disallow: */2019/
  269. Disallow: */2020/
  270. Disallow: */2021/
  271. Disallow: */2022/
  272. Disallow: */2023/
  273. Disallow: */2024/
  274. Disallow: */2025/
  275. Disallow: */2026/
  276. Disallow: */2027/
  277. Disallow: */2028/
  278. Disallow: */2029/
  279. Disallow: */2030/
  280. Disallow: */2031/
  281. Disallow: */2032/
  282. Disallow: */2033/
  283. Disallow: */2034/
  284. Disallow: */2035/
  285. Allow: /product/20*/
  286. Disallow: /product/20*/?
  287. ## individual rules ##
  288. Disallow: */tag/
  289. Disallow: */reviews/
  290. ## end ##
  291. Crawl-delay: 5
  292. Sitemap: https://site.ru/sitemap.xml
  293. User-agent: Mediapartners-Google
  294. Allow: /
  295. Crawl-delay: 3
Инструкция по внедрению robots.txt на региональные поддомены сайта
  1. Скопируйте себе весь код для региональных поддоменов.
  2. Если вы используете страницы тегов в качестве посадочных страниц - удалите строчки "Disallow: /tag/" и "Disallow: */tag/".
  3. Если вы используете страницы отзывов о товарах в качестве посадочных страниц - удалите строчку "Disallow: */reviews/".
  4. Если вам необходимо добавить дополнительные директивы - рекомендую вывести их в блоке "## individual rules ##".
  5. Введите итоговый код:
    • Если вы используете плагин "SEO-регионы", то перейдите на страницу "/webasyst/shop/?plugin=regions&action=robots", вставьте код туда, выберите все региональные витрины (т.е. все витрины кроме основной) и нажмите кнопку "Сохранить".
    • Если вы не используете плагин "SEO-регионы", то заходите в настройки сайта и поочередно выбирая все региональные витрины, вставляйте код и сохраняйте изменения, не забывая при этом заменять в строчке "Sitemap: https://{storefront_url}/sitemap.xml" фрагмент "{storefront_url}" на домен вашей региональной витрины (пример: "Sitemap: https://spb.test.ru/sitemap.xml").
  6. Обязательно проверьте файл robots.txt на региональных витринах после внесения изменений (доступны по адресу https://spb.site.ru/robots.txt, https://ufa.site.ru/robots.txt, https://omsk.site.ru/robots.txt, итд).

Шаблон robots.txt для региональных поддоменов

  1. #upd 10.08.2023
  2. #author: @anatoly_chikurov
  3. User-agent: *
  4. Disallow: /
  5. User-agent: Yandex
  6. ## googleonly pages ##
  7. ## content pages ##
  8. Disallow: */blog/
  9. Disallow: */stati/
  10. Disallow: */novosti
  11. Disallow: */seorating/
  12. Disallow: */rating/
  13. ## system hidden pages ##
  14. Disallow: *admin/
  15. Disallow: *helpdesk/
  16. Disallow: *cml1c/
  17. Disallow: */vk/
  18. Disallow: */turbo/
  19. Disallow: */logs/
  20. Disallow: *multiform/
  21. Disallow: *webasyst/
  22. Disallow: */test/
  23. Disallow: */old/
  24. Disallow: *.html
  25. Disallow: *.php
  26. Disallow: *.pdf
  27. Disallow: */amp/
  28. ## info and service pages ##
  29. Disallow: *search
  30. Disallow: *mailer/
  31. Disallow: *login/
  32. Disallow: *signup/
  33. Disallow: *forgotpassword/
  34. Disallow: *order/
  35. Disallow: */cart/
  36. Disallow: *onestep/
  37. Disallow: *checkout
  38. Disallow: */my/
  39. ## service links ##
  40. Disallow: *tel:
  41. Disallow: *skype:
  42. Disallow: *mailto:
  43. Disallow: *tg:
  44. Disallow: *viber:
  45. ## garbage and dublicates ##
  46. Disallow: *undefined
  47. Disallow: *compare/
  48. Disallow: *?
  49. Allow: *.*?
  50. Allow: *config/?
  51. Allow: *?page=
  52. Disallow: *?page=*&
  53. Disallow: *&page=
  54. Disallow: *?page=1
  55. Allow: *?page=10
  56. Allow: *?page=11
  57. Allow: *?page=12
  58. Allow: *?page=13
  59. Allow: *?page=14
  60. Allow: *?page=15
  61. Allow: *?page=16
  62. Allow: *?page=17
  63. Allow: *?page=18
  64. Allow: *?page=19
  65. Disallow: *?page=10*&
  66. Disallow: *?page=11*&
  67. Disallow: *?page=12*&
  68. Disallow: *?page=13*&
  69. Disallow: *?page=14*&
  70. Disallow: *?page=15*&
  71. Disallow: *?page=16*&
  72. Disallow: *?page=17*&
  73. Disallow: *?page=18*&
  74. Disallow: *?page=19*&
  75. Disallow: *product*/?page=
  76. ## blog garbage ##
  77. Disallow: */author/
  78. Disallow: */2015/
  79. Disallow: */2016/
  80. Disallow: */2017/
  81. Disallow: */2018/
  82. Disallow: */2019/
  83. Disallow: */2020/
  84. Disallow: */2021/
  85. Disallow: */2022/
  86. Disallow: */2023/
  87. Disallow: */2024/
  88. Disallow: */2025/
  89. Disallow: */2026/
  90. Disallow: */2027/
  91. Disallow: */2028/
  92. Disallow: */2029/
  93. Disallow: */2030/
  94. Disallow: */2031/
  95. Disallow: */2032/
  96. Disallow: */2033/
  97. Disallow: */2034/
  98. Disallow: */2035/
  99. Allow: /product/20*/
  100. Disallow: /product/20*/?
  101. ## individual rules ##
  102. Disallow: */tag/
  103. Disallow: */reviews/
  104. ## end ##
  105. Clean-param: from&clid&pclid&promo&utm&utm_referrer&utm_medium&utm_source&utm_campaign&utm_term&utm_content&gclid&openstat&cpc&test&dev&sort&order&tip&tsvet&brend&brand&strana&price_min&price_max&showall&frommarket&nomobile&mobile&crcy&promo_id
  106. Sitemap: https://{storefront_url}/sitemap.xml
Написать комментарий
15 комментариев
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова26 декабря 2020 13:32
Обновление #upd 26.12.2020
— снят запрет с индексации .js, .css, и прочих файлов, если они подключены с get-параметрам, содержащими информацию о версии файлов
— снят запрет для индексации страниц товаров c рекламными UTM-метками для Googlebot
— снят запрет для индексации AMP-страниц для Googlebot
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова18 января 2021 06:40
Обновление #upd 18.01.2020
— удаление лишних директив
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова6 февраля 2021 12:17
Обновление 06.02.2020
— новая группа правил ## googleonly pages ## (для проектов, на которых реализовано продвижение папками в Google)
— новая группа правил ## content pages ## (для проектов, на которых имеется блог и/или используется плагин "SEO-топы и списки")
В
ВЕталВеб-студия Анатолия Чикурова28 апреля 2021 23:39
Добрый!
Расскажите по подробней пожалуйста о директиве:

## googleonly pages ##
Disallow: */spb/
Disallow: */spb-opt/
Disallow: */ekb/
Disallow: */ekb-opt/
Disallow: */novosibirsk/

Вы пишите , что "Данный шаблон robots.txt подойдет для 99% интернет-магазинов". Я например на сайтах не использую подобных каталогов, я использую субдомены. Соответственно мне закрывать в роботсе нет смысла региональные каталоги, и исходя из этого мне можно удалить эту часть роботса? или я не правильно понял назначение директивы ## googleonly pages ## ?

И ещё в вашем шаблоне роботса региональные каталоги закрыты (Disallow) и для основного домена и для регионального, в чём фишка?
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова29 апреля 2021 11:13
Фишка в том, что папки индексируются только у основного домена и только в гугле.

Если вы не используете папки для продвижения в Google, то закрыв их от индексации вы в общем-то ничего не потеряете. Будет лишь несколько лишних строк в robots.txt, которые ничего не делают. Хотите их удалить - удаляйте.
Д
ДенисВеб-студия Анатолия Чикурова21 июня 2021 17:11
Добрый день.
Надо ли что то менять в файлах robots, предоставленных Вами, если у меня интернет магазин на поддоменах xxx.site.ru ?
В региональном файле Вы закрыли индексацию для всех поисковиков кроме Яндекса. На сколько понял это нужно для сайтов на папках. Нужно ли это делать в моем случае? Для Чего нужен User-agent: Mediapartners-Google на основной витрине?
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова22 июня 2021 14:56
Денис, для начала, немного "моей" терминалогии:
- "витрина на поддомене" - это сайт вида msk.site.ru
- "витрина на папке" - это витрина сайта вида site.ru/msk/

Гугл очень неохотно индексирует/ранжирует поддомены. Но папки воспринимает нормально, если все грамотно настроено.

Яндекс, напротив, хорошо воспринимает поддомены. В идеале на сайте нужно реализовывать гибрид поддоменов и папок: поддомены кормить Яндексу, папки кормить Гуглу.

Скорее всего у вас все реализовано на поддоменах, а не на папках (я не встречал ни одного сайта на Webasyst, сделанного не мной, на котором грамотно настроены папки для гугла).

Файл robots.txt, представленный на данной странице, универсален - его можно в неизменном виде внедрять и на проекты на поддоменах, и на проекты на папках, и на проекты с гибридной системой. Если у вас не реализованы папки и вы не удалите правила, которые используются в файле-шаблоне robots.txt, то у вас просто будут лишние строки, которые абсолютно ни на что не влияют.

---

Что касается "User-agent: Mediapartners-Google" - долго объяснять. Если вкратце, это правило было добавлено для снятия запрета на индексацию страниц товаров с GET-параметрами для гугловского робота, который парсит сайт с целью сбора информации для рекламных сервисов (в частности, для сервиса "Google Покупки").

Однако на практике это не всегда работает, поскольку Google сам же перестал следовать своей документации и за информацией на сайт часто приходят обычные "нерекламные" роботы. Подозреваю, что это недоразумение связано с переходом на Mobile First индексацию и в будущем специалисты Google это исправят. Ну а пока что в robots.txt приходится добавлять строчку "Allow: *utm_source=", во избежание проблем работы магазина на сервисе "Google Покупки".

---

В любом случае, рекомендую вам следовать стандартному шаблону. Он проверен на огромном количестве сайтов и действительно является универсальным решением.
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова8 августа 2021 09:17
Обновление #upd 08.08.2021
— добавлены новые правила для запрета сканирования некоторых страниц пагинаций
Л
Лаба ИльяВеб-студия Анатолия Чикурова14 декабря 2021 16:37
Анатолий в вашем примере по пагинации вы ориентируетесь на 20 страниц. Вопрос если у меня больше 20 я их все перечисляю ???

Allow: *?page=142
Allow: *?page=143
Allow: *?page=144
и т.д

Disallow: *?page=142*&
Disallow: *?page=143*&
Disallow: *?page=144*&
и т.д

А если у меня в корневую категорию выводятся все подкатегории, то это могут быть и очень больше цифры.

Например в этой категории https://huha.com.ua/category/tovary-dlya-detey/ более 2000 страниц пагинации. Будет ли нормально работать robot.txt если прописать все 2000 страниц пагинации???

Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова15 декабря 2021 06:57
В этом нет необходимости. 10 правил вида Allow: *?page=10, Allow: *?page=11 добавлены, чтобы перебить директиву Disallow: *?page=1 закрывающую страницу-дубль категории. Если у вас в категории есть хоть 2000 страниц пагинаций, их сканирование не будет запрещено. Дополнительных правил для каждой отдельно взятой страницы пагинации прописывать не требуется.
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова19 сентября 2022 09:06
Обновление #upd 19.09.2022
— полностью переработан подраздел ## googleonly usual storefronts ##
— добавлен подраздел ## googleonly opt storefronts ##

Если вы не понимаете что это за правила в robots.txt - значит они вам не нужны. Можете их оставить, можете удалить - разницы не будет.
Б
Богомолова Ольга ИгоревнаВеб-студия Анатолия Чикурова7 июня 2023 12:28
Ваша настройка robots ведет к тому, что Google не может сканировать даже главную страницу. https://disk.yandex.ru/i/2iW8K2yzqD8Jcw
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова7 июня 2023 14:03
Ольга, всё корректно работает на сотнях проектах.

Не могу посмотреть robots.txt на вашем сайте baf-agro.ru, т.к. вы его на момент написания данного комментария изменили, но скорее всего вы сами допустили грубую ошибку: разместили robots.txt который предназначен для поддомена сайта на основной домен сайта.

В шаблоне robots.txt для поддоменов сайта есть правило запрещающая роботам Google сканировать страницы сайта. Будьте пожалуйста внимательнее.
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова8 июля 2023 14:28
Обновление #upd 08.08.2023
— снят запрет для сканирования страниц /yml/
— снят запрет для сканирования страниц /xml/
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова10 августа 2023 15:57
Обновление #upd 10.08.2023
— убран запрет на сканирование страниц содержащих в URL "yandexmarket/"