فایل robots.txt چیست؟
فایل robots.txt چیست؟
Robots.txt یک فایل متنی است که وب مسترها برای آموزش رباتهای وب (معمولاً ربات های موتور جستجو) نحوه خزیدن در صفحات وب سایت خود ایجاد می کنند.فایل robots.txt بخشی ازrobots exclusion protocol به طور اختصاری(REP) است ، گروهی از استانداردهای وب که چگونگی خزیدن روبات ها به وب ، دسترسی و فهرست بندی به مطالب را تنظیم می کنند و آن محتوا را در اختیار کاربران قرار می دهند. REP همچنین شامل راهنماهایی برای روبات های متا ، و همچنین دستورالعمل های صفحه ، یا راهنمای سایت برای نحوه برخورد موتورهای جستجو با پیوندها (مانند "follow" یا "nofollow") است.
در عمل ، فایل های robots.txt نشان می دهند که آیا برخی از کاربران (نرم افزار خزنده وب) می توانند یا نمی توانند در قسمت هایی از یک وب سایت را بخزند. این دستورالعملهای خزیدن با "مجاز نبودن" یا "غیرمجاز" کردن رفتار برخی از user agents (یا همه) مشخص می شوند.
فرمت اساسی robots.txt :
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
این دو خط بالا فایل کامل robots.txt به حساب می آیند - هرچند که یک فایل روبات می تواند حاوی چندین خط از عوامل و دستورالعمل های کاربر باشد (به عنوان مثال ، اجازه نمی دهد ، اجازه می دهد ، تاخیر در خزیدن و غیره).
در یکفایل robots.txt ، هر مجموعه از دستورالعمل های user-agent به صورت یک مجموعه گسسته ، با یک خط جدا از هم ظاهر می شوند:
در یک فایلrobots.txt با چندین دستورالعمل user-agent، هر قانون مجاز یا غیر مجاز فقط مربوط به کاربر (بازدید کنندگان) مشخص شده در آن مجموعه جدا شده از خط خاص می باشد. اگر فایل حاوی یک قاعده است که برای بیش از یک user-agent اعمال می شود ، یک خزنده فقط به خاص ترین گروه دستورالعمل ها توجه خواهد کرد (و دستورالعمل ها را دنبال می کند).
به عنوان مثال:
Msnbot ، discobot و Slurp همه به طور اختصاصی فراخوانی می شوند ، بنابراین آن دسته از user-agents فقط در بخش های فایل robots.txt به دستورالعمل ها توجه می کنند. سایر user-agents دستورالعمل های موجود درuser-agent: * group را دنبال می کنند.
مثالی ازrobots.txt:
Robots.txt file URL: www.example.com/robots.txt
مسدود کردن همه خزندهای وب از خزیدن درهمه محتوا ها
User-agent: *
Disallow: /
استفاده از این syntax در یک فایل robots.txt به همه خزندگان وب می گوید که در هیچ صفحهای را در www.example.com ، از جمله صفحه اصلی ، نخزند.
اجازه دسترسی به همه خزندگان وب به همه محتواها
User-agent: *
Disallow:
استفاده از این syntax در یک فایل robots.txt به خزندگان وب می گوید در همه صفحات در www.example.com ، از جمله صفحه اصلی ، بخزند.
مسدود کردن یک خزنده وب خاص از یک پوشه خاص
User-agent: Googlebot
Disallow: /example-subfolder/
این syntax فقط به خزنده گوگل (نام کاربر عامل Googlebot) می گوید هیچ صفحه ای را که حاوی رشته URL www.example.com/example-subfolder/است ، نخزد.
مسدود کردن یک خزنده وب خاص از یک صفحه وب خاص
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
این syntax فقط به خزنده بینگ (نام کاربری بینگ) می گوید که از خزیدن صفحه خاص در www.example.com/example-subfolder/blocked-page جلوگیری کند.
robots.txt چگونه کار می کند؟
موتورهای جستجو دارای دووظیفه اصلی هستند:
برای خزیدن در سایتها ، موتورهای جستجو لینک ها را دنبال می کنند تا از یک سایت به سایت دیگر برسند - در نهایت ، در میلیاردها لینک وب سایت را مشاهده می کنید. این رفتار خزنده گاهی به عنوان "عنکبوت" شناخته می شود.
پس از رسیدن به یک وب سایت اما قبل از اسپایدر کردن آن ، خزنده جستجو به دنبال پرونده robots.txt میگردد. اگر ان را پیدا کند ، خزنده ابتدا قبل از ادامه صفحه ، آن پرونده را می خواند. از آنجا که فایل robots.txt حاوی اطلاعاتی در مورد چگونگی خزیدن موتور جستجو است ، اطلاعات موجود در آنجا دستور عمل بیشتر خزنده در این سایت خاص را می دهد. اگر فایل robots.txt حاوی هیچگونه بخشنامه ای نباشد که فعالیت یک user-agent’s را مجاز می داند (یا اگر سایت پرونده robots.txt ندارد) ، به خزیدن سایر اطلاعات در سایت ادامه می دهد.
سایر robots.txt هایی که باید بدانند:
به طور کلی بهترین روش برای نشان دادن مکان sitemap مرتبط با این دامنه در انتهای فایل robots.txt است. به عنوان مثال:
robots.txt های فنی
ترکیب Robots.txt را می توان "زبان" فایل های robots.txt دانست. پنج اصطلاح رایج وجود دارد که به احتمال زیاد در یک فایل روبات قرار دارید. آنها شامل موارد زیر هستند:
فایل robots.txt در کدام قسمت سایت قرار دارد؟
موتورهای جستجو و سایر روبات های خزنده وب هر وقت به یک سایت مراجعه می کنند ، (مانند خزنده فیس بوک ، Facebot) می دانند که به دنبال فایل robots.txt هستند. اما ، آنها فقط در یک مکان خاص به جستجوی آن فایل می پردازند: فهرست اصلی (به طور معمول دامنه یا صفحه اصلی شما). اگر یک User-agent به آدرس www.example.com/robots.txt مراجعه کند و فایل ربات را در آنجا پیدا نکند ، فرض خواهد کرد که سایت این فایل را ندارد و با خزیدن در همه صفحه (و شاید حتی در کل سایت) ادامه یابد. حتی اگر صفحه robots.txt وجود داشته باشد ، به عنوان مثال ، مثال.com/index/robots.txt یا www.example.com/homepage/robots.txt وجود داشته باشد ، توسط User-agent کشف نمی شود و بنابراین سایت تحت درمان قرار می گیرد. انگار اصلاً پرونده روبات ندارد.
برای اطمینان از یافتن فایل robots.txt ، همیشه آن را در فهرست اصلی یا دامنه اصلی خود قرار دهید.
چرا به فایل robots.txt احتیاج دارید؟
فایل های Robots.txt دسترسی خزنده را به مناطق خاصی از سایت شما کنترل می کنند. در حالی که اگر به طور تصادفی Googlebot را از خزیدن کل سایت خود محروم کنید ممکن است بسیار خطرناک باشد ، برخی مواقع وجود دارد که یک فایل robots.txt می تواند بسیار مفید باشد.
برخی موارد استفاده معمولی شامل موارد زیر است:
بررسی فایل robots.txt
مطمئن نیستید که فایل robots.txt دارید؟ به سادگی دامنه اصلی خود را تایپ کنید ، سپس به انتهای یو ار ال robots.txt . را اضافه کنید. به عنوان مثال ، پرونده روبات های Moz در moz.com/robots.txt قرار دارد.
اگر هیچ صفحه .txt ظاهر نمی شود ، در حال حاضر فایل robots.txt ندارید
نحوه ایجاد فایل robots.txt
اگر فهمیدید که پرونده robots.txt ندارید یا می خواهید تغییراتی دهید ، ایجاد این فرآیند ساده است. این مقاله از Google به روند ایجاد فایل robots.txt می پردازد و این ابزار به شما امکان می دهد تست کنید که آیا فایل شما به درستی تنظیم شده است یا خیر.
بهترین فعالیت ها هنگام سئو
Robots.txt مقابل meta robotsمقابل x-robots
تفاوت بین این سه نوع دستورالعمل ربات چیست؟ اول از همه ، robots.txt یک فایل متنی واقعی است ، در حالی که روبات های متا و ایکس رهنمودهای متا هستند. فراتر از آنچه در واقعیت هستند ، این سه عملکردهای مختلفی دارند. Robots.txt رفتارهای خزنده سایت یا دایرکتوری را دیکته می کند ، در حالی که روبات های متا و x می توانند رفتارفهرست بندی را در سطح صفحه (یا عنصر صفحه) دیکته کنند.