فایل “robots.txt” یک فایل متنی است که صاحبان وبسایت میتوانند از آن برای آموزش خزندههای موتورهای جستجو در قسمتهایی از وبسایتشان استفاده کرده و فهرست شوند. با استفاده از فایل “robots.txt”، صاحبان وب سایت می توانند از فهرست کردن صفحاتی که نمی خواهند در نتایج جستجو درج شوند، مانند صفحات مدیریتی یا داده های کاربر خصوصی توسط موتورهای جستجو جلوگیری می کنند.
در اینجا دستورات و دستورالعمل های اصلی برای فایل “robots.txt” آمده است:
User-agent: این دستور برای تعیین خزنده موتور جستجو که قوانین زیر برای آن اعمال می شود استفاده می شود. برای مثال، user-agent برای Google “Googlebot” است، در حالی که user-agent برای Bing “bingbot” است. اگر میخواهید یک قانون را برای همه موتورهای جستجو اعمال کنید، میتوانید از علامت عام “*” مانند زیر استفاده کنید:
User-agent: *
دستور Disallow در robots.txt
Disallow: این دستور برای تعیین اینکه کدام قسمت از وب سایت شما نباید توسط موتورهای جستجو خزیده و ایندکس شود استفاده می شود. به عنوان مثال، اگر نمی خواهید موتورهای جستجو در پوشه “admin” شما بخزند، می توانید قانون زیر را اضافه کنید:
User-agent: *
Disallow: /admin/
دستور Allow در robots.txt
Allow: از این دستور برای تعیین اینکه کدام بخش از وب سایت شما باید توسط موتورهای جستجو خزیده و نمایه شود، استفاده می شود، حتی اگر بخشی از یک پوشه غیر مجاز باشد. برای مثال، اگر پوشهای دارید که غیرمجاز است، اما میخواهید اجازه دسترسی به یک زیرپوشه خاص را بدهید، میتوانید از دستور «allow» استفاده کنید:
User-agent: * Disallow: /admin/ Allow: /admin/subfolder/
سایت مپ در robots.txt
نقشه سایت: این دستور برای تعیین مکان نقشه سایت XML وب سایت شما استفاده می شود. نقشه سایت فایلی است که فهرستی از تمام صفحات وب سایت شما را که می خواهید ایندکس شوند در اختیار موتورهای جستجو قرار می دهد. می توانید قانون زیر را به فایل “robots.txt” خود اضافه کنید:
Sitemap: https://www.example.com/sitemap.xml
Crawl-delay: این دستور برای تعیین تاخیر زمانی بین درخواست های متوالی از خزنده های موتورهای جستجو استفاده می شود. اگر یک وب سایت بزرگ با صفحات زیاد دارید و می خواهید از بارگیری بیش از حد سرور با درخواست های بیش از حد به طور همزمان جلوگیری کنید، این کار مفید است. به عنوان مثال، می توانید قانون زیر را به فایل “robots.txt” خود اضافه کنید تا یک تاخیر 10 ثانیه ای بین درخواست ها مشخص شود:
User-agent: * Crawl-delay: 10
توجه به این نکته مهم است که در حالی که فایل “robots.txt” ابزاری قدرتمند برای کنترل خزندههای موتورهای جستجو است، اما روشی بیدردسر برای جلوگیری از ایندکس شدن صفحات نیست. برخی از موتورهای جستجو ممکن است قوانین موجود در فایل “robots.txt” شما را نادیده بگیرند و همیشه این خطر وجود دارد که اطلاعات حساس در صورتی که در مکانی قابل دسترس در وب سایت شما ذخیره شوند، به بیرون درز کند.
به طور خلاصه، فایل “robots.txt” یک فایل متنی است که صاحبان وب سایت می توانند از آن برای آموزش خزنده های موتورهای جستجو استفاده کنند که کدام بخش از وب سایت آنها باید خزیده و نمایه شود. با استفاده از دستورات و دستورالعمل های اصلی ذکر شده در بالا، می توانید نحوه تعامل موتورهای جستجو با وب سایت خود را کنترل کنید و اطمینان حاصل کنید که محتوای شما به شکلی که می خواهید ارائه می شود.

ذکر این نکته ضروری است که فایل “robots.txt” مجموعه ای از دستورالعمل ها و قوانین برای خزنده های موتورهای جستجو است و همه موتورهای جستجو از این قوانین پیروی نمی کنند. علاوه بر این، فایل “robots.txt” فقط برای موتورهای جستجو اعمال می شود و از دسترسی و تعامل سایر ربات های خودکار یا بازدیدکنندگان انسانی با وب سایت شما جلوگیری نمی کند.
0 دیدگاه