ساخت فایل Robots.txt : آموزش کامل و ترفند‌های ۲۰۲۲

Robots.txt یکی از مهم‌ترین فایل‌های وب‌سایت است که با کوچک‌ترین اشتباهی در خصوص آن، تمام تلاش‌های چند ساله شما در خصوص یک وب‌سایت ممکن است به هدر برود. با توجه به اهمیت این فایل در سئو تکنیکال و تعیین وضعیت جلوگیری از ایندکس صفحات سایت در گوگل، در این مطلب قصد داریم نحوه ساخت فایل Robots.txt را به شما عزیزان آموزش دهیم.

با ما همراه باشید.

فایل Robots.txt چیست؟

فایل روبوت Robots.txt، به فایلی در سایت گفته می‌شود که وضعیت دسترسی خزنده‌های گوگل، به بخش‌های مختلف صفحات وب‌سایت را تعیین می‌کند. در درجه اول، می‌توانید تمام مطالبی که نمی‌خواهید توسط گوگل بررسی و ایندکس شوند را در این فایل فهرست کنید. علاوه بر این، برای برخی از موتورهای جستجو (نه گوگل) تعیین کنید که فایل‌های مجاز را چگونه ایندکس کنند. استفاده از این فایل باید توسط فرد حرفه‌ای انجام شده و به‌هیچ‌وجه توصیه نمی‎‌کنیم که بدون داشتن دانش کافی در این خصوص، خود شما شخصا برای ایجاد فایل و اضافه کردن آن به وب‌سایت، اقدام کنید.

نکته مهم: برخی از موتورهای جستجوگر از قوانین تعیین شده در فایل ربات تی اکس تی پیروی نمی‌کنند!! اما خوشبختانه گوگل یکی از آن‌ها نیست. با توجه به این که در حال حاضر نیز اکثر وبسایت‌ها برای حضور در نتایج گوگل در تلاش هستند، می‌توان گفت که این فایل روبوت، برای بیشتر وب‌سایت‌ها کاربردی و حائز اهمیت خواهد بود.

فایل Robots.txt سایت من کجاست؟

در صورتی فایل Robots.txt در پرونده‌های سایت شما موجود باشد، با وارد کردن آدرس Domain.com/robots.txt در مرورگر، تصویری مشابه با عکس زیر مشاهده خواهید کرد:

فایل robots.txt سایت من کجاست؟

فایل robots.txt

ظاهر فایل Robots.txt چگونه است؟

فرمت اصلی فایل Robots.txt به صورت زیر است:

[Sitemap: [URL location of sitemap
[User-agent: [bot identifier
[directive 1] [directive 2] [ … directive] [User-agent: [another bot identifier
[directive 1] [directive 2] [ … directive]

اگر تاکنون متوجه حضور این فایل در بین پروند‌های وب‌سایت‌تان نشده‌اید، جای نگرانی نیست. چرا که در ادامه نحوه ساخت فایل Robots.txt را به شما آموزش خواهیم داد. اما قبل از شروع این آموزش، بهتر است در مورد هر یک از بخش‌ها و دستورات این فایل صحبت کنیم.

User-agents

هر موتور جستجویی از چند User-agents تشکیل شده است. از میان هزاران User-agents، تنها چند مورد از آن‌ها برای رتبه‌بندی سئو سایت کاربردی است که باید وضعیتشان در فایل روبوت مشخص شود. برخی از آن‌ها عبارت‌اند از:

  • گوگل: Googlebot
  • تصاویر گوگل: (Google Images): Googlebot-Image
  • بینگ: Bing bot
  • یاهو: Slurp
  • بایدو: Baidu spider
  • DuckDuckGo :Duck Duck Bot

تمام User-agents‌ها به حروف بزرگ و کوچک حساس هستند. پس اگر قصد استفاده هر یک از آن‌ها را دارید، لازم است دقیق همان‌طور که نوشته شده‌اند، آن‌ها را به کار بگیرید.

در صورتی که قصد دارید وضعیت تمام User-agents‌ها را به یک صورت تعیین کنید، می‌توانید از (*) استفاده کنید. به عنوان مثال فرض کنید که می‌خواهید دسترسی تمام خزنده‌ها به جز گوگل را مسدود کنید. در این صورت باید این قطعه کد را داخل فایل Robots.txt قرار دهید:

* : User-agent
/ : Disallow
User-agent: Googlebot
/  :Allow

به خاطر داشته باشید که برای هر User-agents باید به صورت مجزا از هم تعیین وضعیت کنید. اما در صورتی که برای یک User-agents چند وضعیت مختلف تعیین کنید، تمامی دستورات با یکدیگر ترکیب شده و اجرا می‌شوند.

فایل robots.txt

D