Универсальный файл robots.txt для интернет-магазина на Webasyst Shop Script. Инструкция по внедрению

Ниже представлен шаблонный robots.txt для интернет-магазинов на Webasyst Shop Script. Данный шаблон robots.txt подойдет для 99% интернет-магазинов. Обратите внимание на выделенные в шаблоне строчки красным цветом: их необходимо перед размещением подкоррективать.

Чикуров Анатолий
Для тех кто хочет немного теории - есть отдельная статья на тему "Правильная настройка индексации интернет-магазина на Shop Script". Ссылка на статью.
Инструкция по внедрению robots.txt на основную витрину сайта
  1. Скопируйте себе весь код для основной витрины сайта.
  2. Если вы используете страницы тегов в качестве посадочных страниц - удалите строчки "Disallow: */tag/" (3 раза).
  3. Если вы используете страницы отзывов о товарах в качестве посадочных страниц - удалите строчки "Disallow: */reviews/" (3 раза).
  4. В строчке "Sitemap: https://site.ru/sitemap.xml" укажите домен своего сайта вместо "site.ru" (3 раза).
  5. Если вам необходимо добавить дополнительные директивы - рекомендую вывести их в блоке "## individual rules ##" (3 раза).
  6. Убедитесь, что вы внесли изменения 3 раза для каждого User-agent-а: для Yandex, для Google, и для всех остальных роботов (User-agent: *)
  7. Введите итоговый код в настройках («админка» --> «Сайт» --> «*выбрать основную витрину из списка*» --> «Настройки сайта» --> «поле "robots.txt"»
  8. Обязательно проверьте файл robots.txt на основной витрине после внесения изменений (доступен по адресу https://site.ru/robots.txt).

Шаблон robots.txt для основной витрины сайта

  1. #upd 08.08.2021
  2. #author: @anatoly_chikurov
  3. User-agent: Yandex
  4. ## googleonly pages ##
  5. Disallow: */spb/
  6. Disallow: */spb-opt/
  7. Disallow: */ekb/
  8. Disallow: */ekb-opt/
  9. Disallow: */novosibirsk/
  10. Disallow: */novosibirsk-opt/
  11. Disallow: */nn/
  12. Disallow: */nn-opt/
  13. Disallow: */kazan/
  14. Disallow: */cheljabinsk/
  15. Disallow: */omsk/
  16. Disallow: */samara/
  17. Disallow: */rostov/
  18. ## system hidden pages ##
  19. Disallow: *admin/
  20. Disallow: *helpdesk/
  21. Disallow: *yandexmarket/
  22. Disallow: *cml1c/
  23. Disallow: */vk/
  24. Disallow: */xml/
  25. Disallow: */yml/
  26. Disallow: */turbo/
  27. Disallow: */logs/
  28. Disallow: *multiform/
  29. Disallow: *webasyst/
  30. Disallow: */test/
  31. Disallow: */old/
  32. Disallow: *.html
  33. Disallow: *.php
  34. Disallow: *.pdf
  35. Disallow: */amp/
  36. ## info and service pages ##
  37. Disallow: *search
  38. Disallow: *mailer/
  39. Disallow: *login/
  40. Disallow: *signup/
  41. Disallow: *forgotpassword/
  42. Disallow: *order/
  43. Disallow: */cart/
  44. Disallow: *onestep/
  45. Disallow: *checkout/
  46. Disallow: */my/
  47. ## service links ##
  48. Disallow: *tel:
  49. Disallow: *skype:
  50. Disallow: *mailto:
  51. Disallow: *tg:
  52. Disallow: *viber:
  53. ## garbage and dublicates ##
  54. Disallow: *undefined
  55. Disallow: *compare/
  56. Disallow: *?
  57. Allow: *.*?
  58. Allow: *config/?
  59. Allow: *?page=
  60. Disallow: *?page=*&
  61. Disallow: *&page=
  62. Disallow: *?page=1
  63. Allow: *?page=10
  64. Allow: *?page=11
  65. Allow: *?page=12
  66. Allow: *?page=13
  67. Allow: *?page=14
  68. Allow: *?page=15
  69. Allow: *?page=16
  70. Allow: *?page=17
  71. Allow: *?page=18
  72. Allow: *?page=19
  73. Disallow: *?page=10*&
  74. Disallow: *?page=11*&
  75. Disallow: *?page=12*&
  76. Disallow: *?page=13*&
  77. Disallow: *?page=14*&
  78. Disallow: *?page=15*&
  79. Disallow: *?page=16*&
  80. Disallow: *?page=17*&
  81. Disallow: *?page=18*&
  82. Disallow: *?page=19*&
  83. Disallow: *product*/?page=
  84. ## blog garbage ##
  85. Disallow: */author/
  86. Disallow: */2015/
  87. Disallow: */2016/
  88. Disallow: */2017/
  89. Disallow: */2018/
  90. Disallow: */2019/
  91. Disallow: */2020/
  92. Disallow: */2021/
  93. Disallow: */2022/
  94. Disallow: */2023/
  95. Disallow: */2024/
  96. Disallow: */2025/
  97. Disallow: */2026/
  98. Disallow: */2027/
  99. Disallow: */2028/
  100. Disallow: */2029/
  101. Disallow: */2030/
  102. Disallow: */2031/
  103. Disallow: */2032/
  104. Disallow: */2033/
  105. Disallow: */2034/
  106. Disallow: */2035/
  107. Allow: /product/20*/
  108. Disallow: /product/20*/?
  109. ## individual rules ##
  110. Disallow: */tag/
  111. Disallow: */reviews/
  112. ## end ##
  113. Clean-param: from&clid&pclid&promo&utm&utm_referrer&utm_medium&utm_source&utm_campaign&utm_term&utm_content&gclid&openstat&cpc&test&dev&sort&order&tip&tsvet&brend&brand&strana&price_min&price_max&showall&frommarket&nomobile&mobile&crcy&promo_id
  114. Sitemap: https://site.ru/sitemap.xml
  115. User-agent: Googlebot
  116. ## system hidden pages ##
  117. Disallow: *admin/
  118. Disallow: *helpdesk/
  119. Disallow: *yandexmarket/
  120. Disallow: *cml1c/
  121. Disallow: */vk/
  122. Disallow: */xml/
  123. Disallow: */yml/
  124. Disallow: */turbo/
  125. Disallow: */logs/
  126. Disallow: *multiform/
  127. Disallow: *webasyst/
  128. Disallow: */test/
  129. Disallow: */old/
  130. Disallow: *.html
  131. Disallow: *.php
  132. Disallow: *.pdf
  133. ## info and service pages ##
  134. Disallow: *search
  135. Disallow: *mailer/
  136. Disallow: *login/
  137. Disallow: *signup/
  138. Disallow: *forgotpassword/
  139. Disallow: *order/
  140. Disallow: */cart/
  141. Disallow: *onestep/
  142. Disallow: *checkout/
  143. Disallow: */my/
  144. ## service links ##
  145. Disallow: *tel:
  146. Disallow: *skype:
  147. Disallow: *mailto:
  148. Disallow: *tg:
  149. Disallow: *viber:
  150. ## garbage and dublicates ##
  151. Disallow: *undefined
  152. Disallow: *compare/
  153. Disallow: *?
  154. Allow: *.*?
  155. Allow: *config/?
  156. Allow: *?page=
  157. Disallow: *?page=*&
  158. Disallow: *&page=
  159. Disallow: *?page=1
  160. Allow: *?page=10
  161. Allow: *?page=11
  162. Allow: *?page=12
  163. Allow: *?page=13
  164. Allow: *?page=14
  165. Allow: *?page=15
  166. Allow: *?page=16
  167. Allow: *?page=17
  168. Allow: *?page=18
  169. Allow: *?page=19
  170. Disallow: *?page=10*&
  171. Disallow: *?page=11*&
  172. Disallow: *?page=12*&
  173. Disallow: *?page=13*&
  174. Disallow: *?page=14*&
  175. Disallow: *?page=15*&
  176. Disallow: *?page=16*&
  177. Disallow: *?page=17*&
  178. Disallow: *?page=18*&
  179. Disallow: *?page=19*&
  180. Disallow: *product*/?page=
  181. Allow: *utm_source=
  182. ## blog garbage ##
  183. Disallow: */author/
  184. Disallow: */2015/
  185. Disallow: */2016/
  186. Disallow: */2017/
  187. Disallow: */2018/
  188. Disallow: */2019/
  189. Disallow: */2020/
  190. Disallow: */2021/
  191. Disallow: */2022/
  192. Disallow: */2023/
  193. Disallow: */2024/
  194. Disallow: */2025/
  195. Disallow: */2026/
  196. Disallow: */2027/
  197. Disallow: */2028/
  198. Disallow: */2029/
  199. Disallow: */2030/
  200. Disallow: */2031/
  201. Disallow: */2032/
  202. Disallow: */2033/
  203. Disallow: */2034/
  204. Disallow: */2035/
  205. Allow: /product/20*/
  206. Disallow: /product/20*/?
  207. ## individual rules ##
  208. Disallow: */tag/
  209. Disallow: */reviews/
  210. ## end ##
  211. Sitemap: https://site.ru/sitemap.xml
  212. User-agent: *
  213. ## googleonly pages ##
  214. Disallow: */spb/
  215. Disallow: */spb-opt/
  216. Disallow: */ekb/
  217. Disallow: */ekb-opt/
  218. Disallow: */novosibirsk/
  219. Disallow: */novosibirsk-opt/
  220. Disallow: */nn/
  221. Disallow: */nn-opt/
  222. Disallow: */kazan/
  223. Disallow: */cheljabinsk/
  224. Disallow: */omsk/
  225. Disallow: */samara/
  226. Disallow: */rostov/
  227. ## system hidden pages ##
  228. Disallow: *admin/
  229. Disallow: *helpdesk/
  230. Disallow: *yandexmarket/
  231. Disallow: *cml1c/
  232. Disallow: */vk/
  233. Disallow: */xml/
  234. Disallow: */yml/
  235. Disallow: */turbo/
  236. Disallow: */logs/
  237. Disallow: *multiform/
  238. Disallow: *webasyst/
  239. Disallow: */test/
  240. Disallow: */old/
  241. Disallow: *.html
  242. Disallow: *.php
  243. Disallow: *.pdf
  244. Disallow: */amp/
  245. ## info and service pages ##
  246. Disallow: *search
  247. Disallow: *mailer/
  248. Disallow: *login/
  249. Disallow: *signup/
  250. Disallow: *forgotpassword/
  251. Disallow: *order/
  252. Disallow: */cart/
  253. Disallow: *onestep/
  254. Disallow: *checkout/
  255. Disallow: */my/
  256. ## service links ##
  257. Disallow: *tel:
  258. Disallow: *skype:
  259. Disallow: *mailto:
  260. Disallow: *tg:
  261. Disallow: *viber:
  262. ## garbage and dublicates ##
  263. Disallow: *undefined
  264. Disallow: *compare/
  265. Disallow: *?
  266. Allow: *.*?
  267. Allow: *config/?
  268. Allow: *?page=
  269. Disallow: *?page=*&
  270. Disallow: *&page=
  271. Disallow: *?page=1
  272. Allow: *?page=10
  273. Allow: *?page=11
  274. Allow: *?page=12
  275. Allow: *?page=13
  276. Allow: *?page=14
  277. Allow: *?page=15
  278. Allow: *?page=16
  279. Allow: *?page=17
  280. Allow: *?page=18
  281. Allow: *?page=19
  282. Disallow: *?page=10*&
  283. Disallow: *?page=11*&
  284. Disallow: *?page=12*&
  285. Disallow: *?page=13*&
  286. Disallow: *?page=14*&
  287. Disallow: *?page=15*&
  288. Disallow: *?page=16*&
  289. Disallow: *?page=17*&
  290. Disallow: *?page=18*&
  291. Disallow: *?page=19*&
  292. Disallow: *product*/?page=
  293. ## blog garbage ##
  294. Disallow: */author/
  295. Disallow: */2015/
  296. Disallow: */2016/
  297. Disallow: */2017/
  298. Disallow: */2018/
  299. Disallow: */2019/
  300. Disallow: */2020/
  301. Disallow: */2021/
  302. Disallow: */2022/
  303. Disallow: */2023/
  304. Disallow: */2024/
  305. Disallow: */2025/
  306. Disallow: */2026/
  307. Disallow: */2027/
  308. Disallow: */2028/
  309. Disallow: */2029/
  310. Disallow: */2030/
  311. Disallow: */2031/
  312. Disallow: */2032/
  313. Disallow: */2033/
  314. Disallow: */2034/
  315. Disallow: */2035/
  316. Allow: /product/20*/
  317. Disallow: /product/20*/?
  318. ## individual rules ##
  319. Disallow: */tag/
  320. Disallow: */reviews/
  321. ## end ##
  322. Crawl-delay: 5
  323. Sitemap: https://site.ru/sitemap.xml
  324. User-agent: Mediapartners-Google
  325. Allow: /
  326. Crawl-delay: 3
Инструкция по внедрению robots.txt на региональные поддомены сайта
  1. Скопируйте себе весь код для региональных поддоменов.
  2. Если вы используете страницы тегов в качестве посадочных страниц - удалите строчки "Disallow: /tag/" и "Disallow: */tag/".
  3. Если вы используете страницы отзывов о товарах в качестве посадочных страниц - удалите строчку "Disallow: */reviews/".
  4. Если вам необходимо добавить дополнительные директивы - рекомендую вывести их в блоке "## individual rules ##".
  5. Введите итоговый код:
    • Если вы используете плагин "SEO-регионы", то перейдите на страницу "/webasyst/shop/?plugin=regions&action=robots", вставьте код туда, выберите все региональные витрины (т.е. все витрины кроме основной) и нажмите кнопку "Сохранить".
    • Если вы не используете плагин "SEO-регионы", то заходите в настройки сайта и поочередно выбирая все региональные витрины, вставляйте код и сохраняйте изменения, не забывая при этом заменять в строчке "Sitemap: https://{storefront_url}/sitemap.xml" фрагмент "{storefront_url}" на домен вашей региональной витрины (пример: "Sitemap: https://spb.test.ru/sitemap.xml").
  6. Обязательно проверьте файл robots.txt на региональных витринах после внесения изменений (доступны по адресу https://spb.site.ru/robots.txt, https://ufa.site.ru/robots.txt, https://omsk.site.ru/robots.txt, итд).

Шаблон robots.txt для региональных поддоменов

  1. #upd 08.08.2021
  2. #author: @anatoly_chikurov
  3. User-agent: *
  4. Disallow: /
  5. User-agent: Yandex
  6. ## googleonly pages ##
  7. Disallow: */spb/
  8. Disallow: */spb-opt/
  9. Disallow: */ekb/
  10. Disallow: */ekb-opt/
  11. Disallow: */novosibirsk/
  12. Disallow: */novosibirsk-opt/
  13. Disallow: */nn/
  14. Disallow: */nn-opt/
  15. Disallow: */kazan/
  16. Disallow: */cheljabinsk/
  17. Disallow: */omsk/
  18. Disallow: */samara/
  19. Disallow: */rostov/
  20. ## content pages ##
  21. Disallow: */blog/
  22. Disallow: */stati/
  23. Disallow: */novosti
  24. Disallow: */seorating/
  25. Disallow: */rating/
  26. ## system hidden pages ##
  27. Disallow: *admin/
  28. Disallow: *helpdesk/
  29. Disallow: *yandexmarket/
  30. Disallow: *cml1c/
  31. Disallow: */vk/
  32. Disallow: */xml/
  33. Disallow: */yml/
  34. Disallow: */turbo/
  35. Disallow: */logs/
  36. Disallow: *multiform/
  37. Disallow: *webasyst/
  38. Disallow: */test/
  39. Disallow: */old/
  40. Disallow: *.html
  41. Disallow: *.php
  42. Disallow: *.pdf
  43. Disallow: */amp/
  44. ## info and service pages ##
  45. Disallow: *search
  46. Disallow: *mailer/
  47. Disallow: *login/
  48. Disallow: *signup/
  49. Disallow: *forgotpassword/
  50. Disallow: *order/
  51. Disallow: */cart/
  52. Disallow: *onestep/
  53. Disallow: *checkout/
  54. Disallow: */my/
  55. ## service links ##
  56. Disallow: *tel:
  57. Disallow: *skype:
  58. Disallow: *mailto:
  59. Disallow: *tg:
  60. Disallow: *viber:
  61. ## garbage and dublicates ##
  62. Disallow: *undefined
  63. Disallow: *compare/
  64. Disallow: *?
  65. Allow: *.*?
  66. Allow: *config/?
  67. Allow: *?page=
  68. Disallow: *?page=*&
  69. Disallow: *&page=
  70. Disallow: *?page=1
  71. Allow: *?page=10
  72. Allow: *?page=11
  73. Allow: *?page=12
  74. Allow: *?page=13
  75. Allow: *?page=14
  76. Allow: *?page=15
  77. Allow: *?page=16
  78. Allow: *?page=17
  79. Allow: *?page=18
  80. Allow: *?page=19
  81. Disallow: *?page=10*&
  82. Disallow: *?page=11*&
  83. Disallow: *?page=12*&
  84. Disallow: *?page=13*&
  85. Disallow: *?page=14*&
  86. Disallow: *?page=15*&
  87. Disallow: *?page=16*&
  88. Disallow: *?page=17*&
  89. Disallow: *?page=18*&
  90. Disallow: *?page=19*&
  91. Disallow: *product*/?page=
  92. ## blog garbage ##
  93. Disallow: */author/
  94. Disallow: */2015/
  95. Disallow: */2016/
  96. Disallow: */2017/
  97. Disallow: */2018/
  98. Disallow: */2019/
  99. Disallow: */2020/
  100. Disallow: */2021/
  101. Disallow: */2022/
  102. Disallow: */2023/
  103. Disallow: */2024/
  104. Disallow: */2025/
  105. Disallow: */2026/
  106. Disallow: */2027/
  107. Disallow: */2028/
  108. Disallow: */2029/
  109. Disallow: */2030/
  110. Disallow: */2031/
  111. Disallow: */2032/
  112. Disallow: */2033/
  113. Disallow: */2034/
  114. Disallow: */2035/
  115. Allow: /product/20*/
  116. Disallow: /product/20*/?
  117. ## individual rules ##
  118. Disallow: */tag/
  119. Disallow: */reviews/
  120. ## end ##
  121. Clean-param: from&clid&pclid&promo&utm&utm_referrer&utm_medium&utm_source&utm_campaign&utm_term&utm_content&gclid&openstat&cpc&test&dev&sort&order&tip&tsvet&brend&brand&strana&price_min&price_max&showall&frommarket&nomobile&mobile&crcy&promo_id
  122. Sitemap: https://{storefront_url}/sitemap.xml
Написать комментарий
8 комментариев
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова26 декабря 2020 13:32
Обновление #upd 26.12.2020
— снят запрет с индексации .js, .css, и прочих файлов, если они подключены с get-параметрам, содержащими информацию о версии файлов
— снят запрет для индексации страниц товаров c рекламными UTM-метками для Googlebot
— снят запрет для индексации AMP-страниц для Googlebot
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова18 января 2021 06:40
Обновление #upd 18.01.2020
— удаление лишних директив
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова6 февраля 2021 12:17
Обновление 06.02.2020
— новая группа правил ## googleonly pages ## (для проектов, на которых реализовано продвижение папками в Google)
— новая группа правил ## content pages ## (для проектов, на которых имеется блог и/или используется плагин "SEO-топы и списки")
В
ВЕталВеб-студия Анатолия Чикурова28 апреля 2021 23:39
Добрый!
Расскажите по подробней пожалуйста о директиве:

## googleonly pages ##
Disallow: */spb/
Disallow: */spb-opt/
Disallow: */ekb/
Disallow: */ekb-opt/
Disallow: */novosibirsk/

Вы пишите , что "Данный шаблон robots.txt подойдет для 99% интернет-магазинов". Я например на сайтах не использую подобных каталогов, я использую субдомены. Соответственно мне закрывать в роботсе нет смысла региональные каталоги, и исходя из этого мне можно удалить эту часть роботса? или я не правильно понял назначение директивы ## googleonly pages ## ?

И ещё в вашем шаблоне роботса региональные каталоги закрыты (Disallow) и для основного домена и для регионального, в чём фишка?
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова29 апреля 2021 11:13
Фишка в том, что папки индексируются только у основного домена и только в гугле.

Если вы не используете папки для продвижения в Google, то закрыв их от индексации вы в общем-то ничего не потеряете. Будет лишь несколько лишних строк в robots.txt, которые ничего не делают. Хотите их удалить - удаляйте.
Д
ДенисВеб-студия Анатолия Чикурова21 июня 2021 17:11
Добрый день.
Надо ли что то менять в файлах robots, предоставленных Вами, если у меня интернет магазин на поддоменах xxx.site.ru ?
В региональном файле Вы закрыли индексацию для всех поисковиков кроме Яндекса. На сколько понял это нужно для сайтов на папках. Нужно ли это делать в моем случае? Для Чего нужен User-agent: Mediapartners-Google на основной витрине?
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова22 июня 2021 14:56
Денис, для начала, немного "моей" терминалогии:
- "витрина на поддомене" - это сайт вида msk.site.ru
- "витрина на папке" - это витрина сайта вида site.ru/msk/

Гугл очень неохотно индексирует/ранжирует поддомены. Но папки воспринимает нормально, если все грамотно настроено.

Яндекс, напротив, хорошо воспринимает поддомены. В идеале на сайте нужно реализовывать гибрид поддоменов и папок: поддомены кормить Яндексу, папки кормить Гуглу.

Скорее всего у вас все реализовано на поддоменах, а не на папках (я не встречал ни одного сайта на Webasyst, сделанного не мной, на котором грамотно настроены папки для гугла).

Файл robots.txt, представленный на данной странице, универсален - его можно в неизменном виде внедрять и на проекты на поддоменах, и на проекты на папках, и на проекты с гибридной системой. Если у вас не реализованы папки и вы не удалите правила, которые используются в файле-шаблоне robots.txt, то у вас просто будут лишние строки, которые абсолютно ни на что не влияют.

---

Что касается "User-agent: Mediapartners-Google" - долго объяснять. Если вкратце, это правило было добавлено для снятия запрета на индексацию страниц товаров с GET-параметрами для гугловского робота, который парсит сайт с целью сбора информации для рекламных сервисов (в частности, для сервиса "Google Покупки").

Однако на практике это не всегда работает, поскольку Google сам же перестал следовать своей документации и за информацией на сайт часто приходят обычные "нерекламные" роботы. Подозреваю, что это недоразумение связано с переходом на Mobile First индексацию и в будущем специалисты Google это исправят. Ну а пока что в robots.txt приходится добавлять строчку "Allow: *utm_source=", во избежание проблем работы магазина на сервисе "Google Покупки".

---

В любом случае, рекомендую вам следовать стандартному шаблону. Он проверен на огромном количестве сайтов и действительно является универсальным решением.
Чикуров Анатолий
Чикуров АнатолийВеб-студия Анатолия Чикурова8 августа 2021 09:17
Обновление #upd 08.08.2021
— добавлены новые правила для запрета сканирования некоторых страниц пагинаций