فایل روبات تکست (robots.txt)در سئو چیست و چه کاربرد های دارد؟

نویسنده: رضا فانی... بازیدها: 684 - نظرات : 0 دسته بندی: وب

فایل robots.txt چیست؟

فایل robots.txt چیست؟
Robots.txt یک فایل متنی است که وب مسترها برای آموزش رباتهای وب (معمولاً ربات های موتور جستجو) نحوه خزیدن در صفحات وب سایت خود ایجاد می کنند.فایل robots.txt بخشی ازrobots exclusion protocol به طور اختصاری(REP) است ، گروهی از استانداردهای وب که چگونگی خزیدن روبات ها به وب ، دسترسی و فهرست بندی به مطالب را تنظیم می کنند و آن محتوا را در اختیار کاربران قرار می دهند. REP همچنین شامل راهنماهایی برای روبات های متا ، و همچنین دستورالعمل های صفحه ، یا راهنمای سایت برای نحوه برخورد موتورهای جستجو با پیوندها (مانند "follow" یا "nofollow") است.

در عمل ، فایل های robots.txt نشان می دهند که آیا برخی از کاربران (نرم افزار خزنده وب) می توانند یا نمی توانند در قسمت هایی از یک وب سایت را بخزند. این دستورالعملهای خزیدن با "مجاز نبودن" یا "غیرمجاز" کردن رفتار برخی از user agents (یا همه) مشخص می شوند.

فرمت اساسی robots.txt :

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

این دو خط بالا فایل کامل robots.txt به حساب می آیند - هرچند که یک فایل روبات می تواند حاوی چندین خط از عوامل و دستورالعمل های کاربر باشد (به عنوان مثال ، اجازه نمی دهد ، اجازه می دهد ، تاخیر در خزیدن و غیره).
در یکفایل robots.txt ، هر مجموعه از دستورالعمل های user-agent به صورت یک مجموعه گسسته ، با یک خط جدا از هم ظاهر می شوند:

در یک فایلrobots.txt با چندین دستورالعمل user-agent، هر قانون مجاز یا غیر مجاز فقط مربوط به کاربر (بازدید کنندگان) مشخص شده در آن مجموعه جدا شده از خط خاص می باشد. اگر فایل حاوی یک قاعده است که برای بیش از یک user-agent اعمال می شود ، یک خزنده فقط به خاص ترین گروه دستورالعمل ها توجه خواهد کرد (و دستورالعمل ها را دنبال می کند).

به عنوان مثال:

Msnbot ، discobot و Slurp همه به طور اختصاصی فراخوانی می شوند ، بنابراین آن دسته از user-agents فقط در بخش های فایل robots.txt به دستورالعمل ها توجه می کنند. سایر user-agents دستورالعمل های موجود درuser-agent: * group را دنبال می کنند.

مثالی ازrobots.txt:

Robots.txt file URL: www.example.com/robots.txt

مسدود کردن همه خزندهای وب از خزیدن درهمه محتوا ها

User-agent: * 
Disallow: /

استفاده از این syntax در یک فایل robots.txt به همه خزندگان وب می گوید که در هیچ صفحه‌ای را در www.example.com ، از جمله صفحه اصلی ، نخزند.

اجازه دسترسی به همه خزندگان وب به همه محتواها

User-agent: * 
Disallow:

استفاده از این syntax در یک فایل robots.txt به خزندگان وب می گوید در همه صفحات در www.example.com ، از جمله صفحه اصلی ، بخزند.

مسدود کردن یک خزنده وب خاص از یک پوشه خاص

User-agent: Googlebot 
Disallow: /example-subfolder/


این syntax فقط به خزنده گوگل (نام کاربر عامل Googlebot) می گوید هیچ صفحه ای را که حاوی رشته URL www.example.com/example-subfolder/است ، نخزد.

مسدود کردن یک خزنده وب خاص از یک صفحه وب خاص

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

این syntax فقط به خزنده بینگ (نام کاربری بینگ) می گوید که از خزیدن صفحه خاص در www.example.com/example-subfolder/blocked-page جلوگیری کند.

robots.txt چگونه کار می کند؟
موتورهای جستجو دارای دووظیفه اصلی هستند:

خزیدن وب برای کشف محتوا.
فهرست بندی آن محتوا به گونه ای که می تواند در اختیار جستجوگرانی باشد که به دنبال اطلاعات هستند.

برای خزیدن در سایتها ، موتورهای جستجو لینک ها را دنبال می کنند تا از یک سایت به سایت دیگر برسند - در نهایت ، در میلیاردها لینک وب سایت را مشاهده می کنید. این رفتار خزنده گاهی به عنوان "عنکبوت" شناخته می شود.

پس از رسیدن به یک وب سایت اما قبل از اسپایدر کردن آن ، خزنده جستجو به دنبال پرونده robots.txt میگردد. اگر ان را پیدا کند ، خزنده ابتدا قبل از ادامه صفحه ، آن پرونده را می خواند. از آنجا که فایل robots.txt حاوی اطلاعاتی در مورد چگونگی خزیدن موتور جستجو است ، اطلاعات موجود در آنجا دستور عمل بیشتر خزنده در این سایت خاص را می دهد. اگر فایل robots.txt حاوی هیچگونه بخشنامه ای نباشد که فعالیت یک user-agent’s را مجاز می داند (یا اگر سایت پرونده robots.txt ندارد) ، به خزیدن سایر اطلاعات در سایت ادامه می دهد.

سایر robots.txt هایی که باید بدانند:

برای یافتن ، یک فایل robots.txt باید در فهرست بالای سطح وب سایت قرار بگیرد.
Robots.txt حساس به مورد است: پرونده باید "robots.txt" نامگذاری شود (نه Robots.txt ، robots.TXT یا موارد دیگر).
برخی از user-agents (روبات ها) ممکن است فایل robots.txt شما را نادیده بگیرند. این امر به ویژه در مورد خزنده های مبهم تر مانند روبات های مخرب یا اسکنرهای آدرس ایمیل رایج است.
پرونده /robots.txt در دسترس عموم است: کافی است انتهای The /robots.txt file is a publicly available: just add /robots.txt را به انتهای هر دامنه اصلی اضافه کنید تا دستورالعمل های این وب سایت را مشاهده کنید (اگر این سایت پرونده robots.txt دارد!). این بدان معنی است که هر کسی می تواند ببیند صفحات شما چه کاری انجام می دهید یا نمی خواهید خزنده شوند ، بنابراین از آنها برای مخفی کردن اطلاعات شخصی کاربر استفاده نکنید.
هر زیر دامنه در یک دامنه root ازفایل های جداگانه robots.txt استفاده می کند. این بدان معنی است که هر دو blog.example.com و shembull.com باید فایل های robots.txt خود را داشته باشند (در blog.example.com/robots.txt و مثال.com/robots.txt).

به طور کلی بهترین روش برای نشان دادن مکان sitemap مرتبط با این دامنه در انتهای فایل robots.txt است. به عنوان مثال:

robots.txt های فنی
ترکیب Robots.txt را می توان "زبان" فایل های robots.txt دانست. پنج اصطلاح رایج وجود دارد که به احتمال زیاد در یک فایل روبات قرار دارید. آنها شامل موارد زیر هستند:

User-agent: خزنده اختصاصی وب که به شما دستورالعمل های خزیدن (معمولاً موتور جستجو) می دهید. لیستی از اکثر User-agent را می توان در اینجا یافت.
Disallow: دستورالعمل مورد استفاده برای گفتن به یک User-agent برای خزیدن درURL خاص. فقط برای هر URL یک خط "Disallow:" مجاز است.
Allow (فقط برای Googlebot قابل اجرا است): دستور برای اطلاع به Googlebot می تواند به یک صفحه یا زیر پوشه دسترسی پیدا کند حتی اگر صفحه اصلی یا زیر پوشه آن مجاز نباشد.
Crawl-delay: چند ثانیه باید یک خزنده منتظر بارگیری و خزیدن محتوای صفحه باشد. توجه داشته باشید که Googlebot این دستور را تأیید نمی کند ، اما سرعت خزیدن را می توان در کنسول جستجوی Google تنظیم کرد.
Sitemap: برای تماس با موقعیت مکانی هر نقشه سایت XML (های) مرتبط با این URL استفاده می شود. توجه داشته باشید که این دستور فقط توسط Google ، Ask ، Bing و Yahoo پشتیبانی می شود.

فایل robots.txt در کدام قسمت سایت قرار دارد؟
موتورهای جستجو و سایر روبات های خزنده وب هر وقت به یک سایت مراجعه می کنند ، (مانند خزنده فیس بوک ، Facebot) می دانند که به دنبال فایل robots.txt هستند. اما ، آنها فقط در یک مکان خاص به جستجوی آن فایل می پردازند: فهرست اصلی (به طور معمول دامنه یا صفحه اصلی شما). اگر یک User-agent به آدرس www.example.com/robots.txt مراجعه کند و فایل ربات را در آنجا پیدا نکند ، فرض خواهد کرد که سایت این فایل را ندارد و با خزیدن در همه صفحه (و شاید حتی در کل سایت) ادامه یابد. حتی اگر صفحه robots.txt وجود داشته باشد ، به عنوان مثال ، مثال.com/index/robots.txt یا www.example.com/homepage/robots.txt وجود داشته باشد ، توسط User-agent کشف نمی شود و بنابراین سایت تحت درمان قرار می گیرد. انگار اصلاً پرونده روبات ندارد.

برای اطمینان از یافتن فایل robots.txt ، همیشه آن را در فهرست اصلی یا دامنه اصلی خود قرار دهید.

چرا به فایل robots.txt احتیاج دارید؟
فایل های Robots.txt دسترسی خزنده را به مناطق خاصی از سایت شما کنترل می کنند. در حالی که اگر به طور تصادفی Googlebot را از خزیدن کل سایت خود محروم کنید ممکن است بسیار خطرناک باشد ، برخی مواقع وجود دارد که یک فایل robots.txt می تواند بسیار مفید باشد.

برخی موارد استفاده معمولی شامل موارد زیر است:

جلوگیری از نمایش محتوای تکراری در SERP (توجه داشته باشید که روبات های متا معمولاً انتخاب بهتری برای این کار هستند)
بخشهای کامل وب سایت را خصوصی نگه دارید (به عنوان مثال ، سایت اصلی تیم مهندسی شما)
نگه داشتن صفحات نتایج جستجوی داخلی در SERP عمومی
مشخص کردن نقشه سایت
جلوگیری از ایندکس کردن فایلهای خاص در وب سایت خود از موتورهای جستجو (تصاویر ، PDF و غیره)
به منظور جلوگیری از بارگیری بیش از حد سرورها هنگام پیماش خزنده ها ، بارها و بارها چندین مطالب را به طور همزمان بارگیری کنید.
اگر در سایت شما هیچ زمینه ای وجود ندارد که می خواهید دسترسی User-agent را کنترل کنید ، ممکن است به هیچ وجه به فایل robots.txt احتیاج نداشته باشید.

بررسی فایل robots.txt
مطمئن نیستید که فایل robots.txt دارید؟ به سادگی دامنه اصلی خود را تایپ کنید ، سپس به انتهای یو ار ال robots.txt . را اضافه کنید. به عنوان مثال ، پرونده روبات های Moz در moz.com/robots.txt قرار دارد.

اگر هیچ صفحه .txt ظاهر نمی شود ، در حال حاضر فایل robots.txt ندارید

نحوه ایجاد فایل robots.txt
اگر فهمیدید که پرونده robots.txt ندارید یا می خواهید تغییراتی دهید ، ایجاد این فرآیند ساده است. این مقاله از Google به روند ایجاد فایل robots.txt می پردازد و این ابزار به شما امکان می دهد تست کنید که آیا فایل شما به درستی تنظیم شده است یا خیر.

بهترین فعالیت ها هنگام سئو

اطمینان حاصل کنید که هیچ محتوا یا بخش هایی از وب سایت مورد نظر خود را نمی توانید مسدود کنید.
لینک به صفحات مسدود شده توسط robots.txt دنبال نمی شوند. این بدان معناست که 1.) مگر در مواردی که از سایر صفحات قابل دسترسی در موتور جستجو (به عنوان مثال صفحات مسدود شده از طریق روبات ها نیست. txt ، روبات های متا یا موارد دیگر) لینک شده باشند، منابع لینک شده خزیده نخواهند شد و ممکن است ایندکس نشوند. 2.) هیچ سهم برای لینک از صفحه مسدود شده بهمقصد منتقل نمی شود. اگر صفحاتی دارید که می خواهید سهم صاحبان سهام منتقل شود ، به غیر از robots.txt از مکانیزم مسدود کردن متفاوت استفاده کنید.
از robots.txt برای جلوگیری از نمایش داده های حساس (مانند اطلاعات کاربر خصوصی) در نتایج SERP استفاده نکنید. از آنجا که صفحات دیگر ممکن است به طور مستقیم به صفحه حاوی اطلاعات شخصی پیوند برقرار کنند (بنابراین با دور زدن دستورالعمل های robots.txt در دامنه اصلی یا صفحه اصلی خود) ، ممکن است هنوز ایندکس شود. اگر می خواهید صفحه خود را از نتایج جستجو مسدود کنید ، از روشی متفاوت مانند محافظت با رمز عبور یا دستورالعمل meta noindex استفاده کنید.
برخی موتورهای جستجو دارای چندین user-agents هستند. به عنوان مثال ، Google از Googlebot برای جستجوی ارگانیک و Googlebot-Image برای جستجوی تصویر استفاده می کند. بیشترuser-agents از همان موتور جستجو همان قوانین را رعایت می کنند ، بنابراین نیازی به تعیین دستورالعمل برای هر یک از خزنده های متعدد موتور جستجو نیست ، اما داشتن توانایی انجام این کار به شما امکان می دهد چگونگی خزیدن محتوای سایت را تنظیم کنید.
یک موتور جستجو محتویات robots.txt را ذخیره می کند ، اما معمولاً حداقل یک بار در روز محتوای ذخیره شده را به روز می کند. اگر فایل را تغییر داده و می خواهید سریعتر از آنچه اتفاق می افتد ، آن را به روز کنید ، می توانید آدرس robots.txt خود را به Google ارسال کنید

Robots.txt مقابل meta robotsمقابل x-robots
تفاوت بین این سه نوع دستورالعمل ربات چیست؟ اول از همه ، robots.txt یک فایل متنی واقعی است ، در حالی که روبات های متا و ایکس رهنمودهای متا هستند. فراتر از آنچه در واقعیت هستند ، این سه عملکردهای مختلفی دارند. Robots.txt رفتارهای خزنده سایت یا دایرکتوری را دیکته می کند ، در حالی که روبات های متا و x می توانند رفتارفهرست بندی را در سطح صفحه (یا عنصر صفحه) دیکته کنند.

نویسنده: رضا فانی... بازیدها: 684 - نظرات : 0 دسته بندی: وب

نوشتن نظر:

برای ارسال نظر باید وارد حساب کاربری خود شوید.

جستجو

دسته بندی ها

کلاس برتر

ارائه دهنده بهترین و به روز ترین ویدیو های و مقالات آموزشی و همچنین مقالات مختلف در رابطه با تکنولوژی ،معماری ،مدیریت و سایر رشته های کاربردی.ما برای شما بهترین ها را میخواهیم.

درحال بارگذاری

فایل روبات تکست (robots.txt)در سئو چیست و چه کاربرد های دارد؟

نوشتن نظر:

جستجو

دسته بندی ها

کلاس برتر

سایر خدمات مجموعهخدمات زیر تحت مدیریت برد تخصصی ارائه می شود.

طراحی وب سایت

راه اندازی و پشتیبانی شبکه

هوشمند سازی منازل

افزایش کارایی نیرو انسانی

تعمیرات دستگاه های الکترونیکی

طراحی داخلی

تبلیغات فضای مجازی

برنامه نویسی

هم اکنون در سایت ثبت نام کنید تا بتوانید از امکانات سایت استفاده کنید

لینک های سریع

تماس امن