robot.txt

در این مقاله قصد داریم درباره ی مبحث  robot.txt  که در حوزه ی سئو تکنیکال بسیار بااهمیت است ،بپردازیم. کاربرد این ابزار برای معرفی و چگونگی چینش صفحات سایت به ربات های موتور جستجوی گوگل است.

شما در مورد robot.txt تا چه حد اطلاع دارید؟

حتی می دانید که کاربرد robot.txt در چه حوزه ای است ؟

چرا صحبت در مورد بهینه سازی سایت همیشه در موتورهای جستجو تا این حد مهم است؟

ما در این مقاله در مورد ساختار robot.txt صحبت میکنیم. قصد داریم تا شما را با مهم های دنیای بازاریبی اینترنتی به خوبی آشنا کنیم. بهترین کاری که می‌توانید انجام دهید این است که به نقش اساسی و بسیار مفید بسیاری از ابزار ها پی ببرید که در این میان، robot.txt می تواند یک عملکرد مهم را برای شما به نمایش بگذارد.

توجه داشته باشید که برای بهینه سازی سایت ربات های موتورهای جستجو هر کدام به نحوی باید در دنیای بزرگ تبلیغات شما به کار آیند و چنانچه شما با هدایت مناسب ربات ها رو به رو نشوید احتمالا استانداردها آنگونه که شما می خواهید رو به جلو حرکت نمی کند.

robot.txt  جایی است که نقش ربات های موتور جستجو برای معرفی کامل یک سایت یک نقش مهم و کلیدی در نظر گرفته شده است. گوگل به این دلیل که یک حوزه بسیار بزرگ است، صددرصد سعی دارد ربات های اختصاصی‌تر خود را در اختیار داشته باشد تا شما موفق شوید وب سایت خود را در مسیری موفق قرار داده و از این ربات ها به نحو احسن استفاده کنید.

همانطور که می دانید، ربات های موتور های جستجو نقش پررنگی در معرفی کامل یک سایت به موتور های جستجو ایفا می کنند . در واقع گوگل گسترده ترین شبکه و مرجع بزرگی در این حوزه است که ربات های اختصاصی و عمومی زیادی دارد .بنابراین طراحان سایت برای جذب بازدید کننده بیشتر ترافیک دریافتی و کسب درآمد از وب سایت همواره تغییرات و عملکرد این ربات ها را دنبال می کنند و طبق استانداردهای آنان جلو می روند .و این فرایند نیازمند کنترل ورود موتور های جستجو به سایت است که از طریق فایل robot.txt  این مهم امکان پذیر است.

Robot.txt چیست؟

Robot.txt یک فایل متنی است که طبق دستوراتی که در آن وارد می کنید، به ربات ها مجوز می دهد صفحات ، فایل ها وفولدرهایی که  مورد نظر شماست در سایت بررسی وایندکس شود و ازایندکس شدن صفحات نا مربوط ،ایجاد تاثیر منفی در سئوی سایت و افزایش امنیت در برابر حملات احتمالی جلو گیری کنید.این فایل را می توانید در هر ویرایشگری ایجاد کرده و با فرمت txt ذخیره کنید و محل قرار گیری فایل robot.txt در مسیر اصلی سایت که همان هاست وسرور شماست در فولدر public.Html  است .زمانی که شما بعد ازآدرس سایت خود نام این فایل را وارد می کنید فایل در دسترس شما قرار می گیرد.

اگر به دنبال این موضوع هستید که دقیقا robot.txt چیست نباید ساختار پیچیده ای را در دنبال کنید؛ چرا که تنها robot.txt یک فایل متن است که سادگی آن شاید برای شما هم خنده دار باشد. اما به این دلیل که در یک مسیر اصلی قرار می گیرد می تواند نقش خود را به راحتی تغییر دهد.

این مسیر اصلی فضای سایت شماست و در مورد وظیفه اصلی robot.txt شما باید ریتم کار آن آشنا شوید که به صورت خاصی برای معرفی کردن قسمت هایی که به هر حال قابل دسترسی هستند یا حتی قسمت هایی که به هر دلیلی با محدودیت روبرو شده‌اند اجازه دسترسی را به انواع ربات ها موتور جستجو و یا همان خزندگان گوگل می دهد.

یکسری دستورات بسیار مهم و البته اصولی  در فایل robot.txt وجود دارد. ربات هایی که در موتورهای جستجو گر فعالیت می کنند به واسطه این دستورات متوجه می‌شوند که چه صفحاتی و یا حتی چه فایل هایی در کدام قسمت های سایت نیاز به ایندکس شدن دارند و حتی چه صفحاتی را به راحتی می توان نادیده گرفت.

در هر صورت فایل های مانند robot.txt  شاید اولین و مهمترین فایلی باشد که ربات های موتورهای جستجو همیشه با آن روبرو می شوند و زمانی که این فایل ها مشاهده می شود ربات معتبر را بررسی می کند و لیست هایی که داخل فایل وجود دارد را به صورت قابل دسترسی مورد ارزیابی قرار می‌دهد و همچنین این فایل به این دلیل که بر روی روت اصلی هاست قرار دارد می تواند یک آدرس دسترسی بسیار خاص را به صورت زیر برای شما باید در نظر بگیرد.

مثال:www.yoursite.ir/robots.txt

این فایل قابل دسترسی و ویرایش است، شما با تنظیم صحیح و بهینه سازی این فایل می توانید رتبه ی سایت را به طور چشمگیری افزایش دهید.

اما سوالی که شاید برای کاربران به وجود آید این است که چنانچه یک سایت به هر دلیلی فایل robot.txt  را درون خود نداشته باشد ممکن است با چه مشکلاتی روبرو شود؟

به همین دلیل شما باید این نکته را در نظر بگیرید که چنانچه فایل robot.txt  در هاست سایت شما به هر دلیلی وجود نداشته باشد، ربات های موتورهای جستجو تمامی صفحات عمومی را می تواند برای ایندکس انتخاب کنند و امکان دسترسی به راحتی در اختیار ربات ها قرار می گیرند.

اگر فایل به هر دلیلی نتواند زبان اصلی خود را در پیش بگیرد، شما باید مشکلات خاصی را مد نظر داشته باشید؛ چون که چنانچه فایل robot.txt  آپلود شده شما فرمت مناسب و استانداردی نداشته باشد و یا حتی نحوه عملکرد آن با مشکل روبرو شود ربات های موتورهای جستجو بازهم امکان دسترسی به تمام صفحات عمومی شما را دارند و تامین محتوا امکان ایندکس شدن دارند.

رفتار ربات ها تنها به ساختار منسجم و دقیق فایل robot.txt  است که بتوان به واسطه آن رفتار ربات را کنترل کرد. اگر دقت و دستور خاصی در فایل robot.txt  وجود داشته باشد، طبیعتا ربات ها قادر هستند به کار خود به درستی ادامه دهند و عملکرد طبیعی خود را به نمایش می‌گذارند و به همین دلیل است که شما باید به درستی و بدون هیچگونه مشکلی فایل robot.txt  را تهیه و آپلود کنید.

از جمله مزایایی که شما می توانید برای استفاده و کاربرد فایل robot.txt در نظر بگیرید، این است که لینک ها و آدرس صفحات خود را کنترل و مدیریت کنید و این کار به هیچ وجه نمی تواند برای شما بی فایده باشد؛ چرا که اگر به بحث های متفاوت سئو توجه داشته باشید، عملیات مخفی سازی آدرس صفحات تا حدودی همیشه یک مسئله چالش برانگیز است.

به این دلیل که این حالت را به عنوان یک تکنیک خاص می شناسند تا با پنهان کردن آدرس صفحه کاربر نتواند آن را ببیند که علاوه بر کاربر موتورهای جستجو نیز این نوع مخفی سازی را نمی‌توانند متوجه شوند و به همین دلیل است که استفاده از فایل های متنی robot.txt که یک فایل بسیار ساده است، برای این لینک ها بسیار کاربردی به حساب می آید.

همچنین شما برای سیستم همکاری در فروش نیز ممکن است با این نوع لینک های مخفی روبه‌رو شوید که صددرصد استفاده از فایل متنی robot.txt می تواند برای شما بسیار گزینه مناسبی باشد. البته اگر شما فرد حرفه ای در این حوزه نیستید، بهتر است از این تکنیک استفاده نکنید؛ چرا که اگر به درستی آن پیاده سازی نشود صد در صد گوگل برای شما جریمه های سنگینی را مدنظر داشرد.

روش عملکرد Robot.txt

موتور های جستجو قبل از بررسی صفحات سایت ابتدا فایل robot.txt را خوانده و طبق دستوراتی که در این فایل برای دسترسی به صفحات و فایل های مورد نظرتان برای این موتورهای جستجو تعریف کرده اید، شروع به ایندکس می کند.

همانگونه که در ابتدای مقاله به این موضوع اشاره شد فایل  robot.txt تنها یک فایل متنی با ساختار فوق العاده ساده است و شاید در نگاه اول باور نکنید که کار مفیدی می تواند انجام دهد و در مورد عملکرد robot.txt هم به این نکته اشاره کردیم که عملکرد این فایل به گونه ای است که می تواند ربات های جستجو را با صفحات مناسب برای ایندکس آشنا کند.

ساختار فایل  robot.txt به گونه‌ای مورد بررسی قرار می گیرد که شما از دستورات پیش فرض استفاده کنید که این دستورات می‌تواند به ترکیب کلمات کلیدی اشاره واضحی داشته باشد. دستوراتی مانند User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap هر کدام می تواند ساختار و فواید منسجم و خاصی را به نمایش بگذارد.

این دستورات هرکدام منطبق بر اصولی خاص به نمایش گذاشته می شوند و به عنوان مثال شما با User-agent میتوانید رباتی راکه اجازه دسترسی دارد را به سادگی هرچه تمام تر مشخص کنید. با دستور و انتخاب فایل robot.txt به ربات اجازه دسترسی به قسمت های مختلف سایت را می دهد.

حتی شما این اختیار را دارید تا نوع ربات خاصی که مدنظر دارید را نیز به آن اضافه کنید و یا همان ربات خاص را کاملا محدود کنید، که چگونه دسترسی به بخش گوناگون سایت را نداشته باشد. در هر صوست ربات زمانی که قصد ورود به بخش های متفاوت سایت را داشته باشد در ابتدا باید مجوز ورود خود را از فایل robot.txt دریافت کند و به این چنین است که عملکرد این فایل تا این حد مورد توجه قرار می گیرد.

اما تنها با استفاده از User-agent کار شما به اتمام نمی‌رسد. به این دلیل که باید ربات های مشخص شده دستورالعملی را دریافت کنند تا بتوانند قسمت های مختلف سایت را برای ایندکس و بررسی انتخاب کنند. شما می توانید ربات را با محدودیت روبرو کنید و یا برای استفاده دستورالعمل های متفاوتی را شما می توانید ارائه دهید و این کار را به نحو احسن انجام دهید.

شما با دو کد اختصاصی و مهم Disallow و Allow روبرو هستید که کد Allow یعنی دسترسی و کد Disallow به محدودیت اشاره می کند. به همین خاطر است که با استفاده از این دستورالعمل ها شما می توانید اجازه و یا محدودیت خاصی را برای ربات ها در نظر بگیرید.

چنانچه تنها از کد Disallow در فایل robot.txt استفاده کنید، ربات ها به عنوان هیچ صفحه ای را در هیچ کدام از قسمت های سایت شما نمی توانند برای ایندکس انتخاب کنند. اما اگر قصد دارید که اجازه کامل را در اختیار آنها قرار دهید می توانید از کد و دستورالعمل Allow استفاده کنید. حتی شما این قدرت را دارید که هر فایل، آدرس، صفحه و مسیر خاصی را به صورت کاملا مشخص در نظر بگیرید تا سایت بتواند آنها را برای ربات گوگل ارائه دهد و این چنین است که ربات بخش های قابل دسترسی را تشخیص داده و به راحتی می تواند با استفاده از دستورالعمل Disallow و Allow شگرد کار خود را ادامه دهد به همین دلیل است که فایل robot.txt  یک فایل بسیار مهم شناخته می شود.

چنانچه قصد داشته باشید که برای ربات های موتور جستجو زمان خاصی را در نظر بگیرید می توانید به واسطه فایل robot.txt از دستورالعمل   Crawl-delayاستفاده کنید که این دستورالعمل که به آن نرخ تاخیر گفته می‌شود ربات ها را وادار می‌کند تا برای ایندکس کردن صفحه زمان خاصی را در نظر بگیرند.

البته نکته ای که وجود دارد این است که این دستورالعمل را شاید برای برخی از فایل ها شما نتوانید اجرا کنید. البته این فرآیند خاص شگرد خاصی را نیز می طلبد که شما می توانید با استفاده از کنسول جستجوی گوگل نرخ تاخیر را با تغییرات مورد نظر خود فعال کنید. تنها کافیست تنظیمات سایت را مورد بررسی قرار دهید. به نظر شما هدف از این کار چیست؟ هدف اصلی صددرصد از ایجاد این دستورالعمل یعنی Crawl-delay این است که ربات ها با پیشنهادات و درخواست‌های پشت سرهم خود مشکل خاصی را برای سرور به وجود نیاورد و این چنین است که ایندکس شدن می‌تواند عملکرد قابل قبولی  را به وجود بیاورد.

با استفاده از یک دستور خاص می توانید در فایل متنی robot.txt اجازه این نوع دستورالعمل را به راحتی صادر کنید. عمدتاً با استفاده از این کد شما باید یک تایم خاص را برای ایندکس در نظر بگیرید. به عنوان مثال شما بعد از هر ایندکس حدودا چند ثانیه را مشخص می کنید تا ربات بتواند دوباره عملیات انیدکس خود را انجام دهد. اما توصیه ما به شما این است که قبل از استفاده از این دستورالعمل به مسائل و نکات خاصی توجه داشته باشید؛ چرا که برخی از صفحات به دلیل محتوای خاصی که دارند شاید نتوانند به راحتی از این دستور العمل ویژه استفاده کنند.

اما برای اینکه شما بتوانید به صورت بهینه از ربات های موتور جستجو استفاده کنید، بهتر است از دستورالمعل های متفاوت و اختصاصی تری نیز برای سایت خود استفاده نمایید. با توجه به ساختار فایل robot.txt باید در نظر بگیرید که چه دستورالعملی می تواند بازدهی بیشتری داشته باشد و به این نکته توجه داشته باشید که از دستورالعمل Sitemap در این زمینه به هیچ عنوان نباید غافل شوید؛ چرا که همیشه سایت باید توسط فایل متنی robot.txt یک مسیر مشخص شده را برای ربات در نظر بگیرد و اجازه دسترسی به ربات داده شود و بدین ترتیب شما برای به ثمر رساندن ایندکس مناسب صفحات باید به نقشه سایت نیز توجه کنید که اینچنین می توانید از موتورهای جستجو و ابزارهای فوق العاده خاص و البته اختصاصی آن به نحو احسن استفاده کنید. دقت کنید که استفاده از این دستورالعمل شاید برای شما صرفه بیشتری داشته باشد. همچنین استفاده از ابزارهای متفاوتی که وجود دارد صددرصد برای شما روند کار را با استفاده از فایل robot.txt بسیار آسانتر می کند. توصیه ما این است که با اضافه کردن کد دستوری Sitemap در فایل robot.txt این اختیار را دارید تا مسیر مناسب را همیشه برای ربات موتور جستجو مشخص کنید.

نحوه ی ساخت فایل robot.txt

ابتدا از عدم تکرار چنین فایلی در سرور سایت خود اطمینان حاصل کنید که قبلا فایل ساخته نشده باشد.برای اطلاع ازتکراری نبودن فایل، آدرس سایت خود را وارد کنید و در آخرنام فایل /robot.txt را تایپ کنید.اگر صفحه باز شده با خطا همراه بود به این معنی است که سایت شما این فایل را ندارد.

ارور ۴۰۴ به این معنی است که این فایل در سایت شما ساخته نشده است. درهر صورت زمانی که در سایت شما با کدهای اختصاصی خاصی مانند User-agent ، Disallow ، Allow ، Crawl-delay و Sitemap  روبرو می‌شوید باید اطمینان حاصل کنید که این فایل در سایت شما وجود دارد و به همین خاطر است که شما اجازه دارید تا از کنترل پنل هاست سایت خود هر چه سریعتر قسمت مدیریت فایل را مورد بررسی قرار دهید.

البته با استفاده از ویرایشگر متن آنلاین شما این اختیار را دارید تا به راحتی فایل robot.txt مورد نظر را دانلود کنید و در این حالت به سادگی می توانید آن را ویرایش نمایید.

به هر حال در برخی از شرایط ممکن است فایل متنی robot.txt در هاست شما به هر دلیلی پیدا نشود اما شما می توانید این فایل را ساخته و با حروف کوچک آن را ذخیره کنید. این نکته را به هیچ عنوان نباید از یاد ببرید که تمامی  دستورالعمل‌ها را شما بر روی فایل robot.txt باید ذخیره سازی کنید در این حالت است که فایل شما ما به راحتی ساخته و شما می توانید از آن استفاده کنید.

برای ایجاد این فایل به کنترل پنل هاست وارد شده در بخش root سایت یک فایل ساده ایجاد کنید ونام آن را robot.txt بگذارید. اگربعد از وارد شدن، با صفحه ای  با کدهای User-agent و … رو به رو شدید، یعنی در سایت این فایل وجود دارد. در این صورت باید توسط ابزاری به نام  FTP و یا کنترل پنل هاست سایت، به قسمت مدیریت فایل بروید و در root اصلی هاست فایل robots.txt را  بیابید وآن را با یک ویرایشگر آنلاین اجرا و ویرایش کنید.می توانید به صورت جداگانه این فایل را دانلودکرده ودر محیط رایانه ی خود ویرایش کنید سپس آن را با فایل قبلی در root جایگزین کنید مبحث فایل robot.txt موضوع پیچیده و زمان بری نیست اما  وجود چنین فایلی برای بهینه سازی و افزایش رتبه ی سایت بسیار مهم است نکته ای که به عنوان هشدار درمورد این فایل مطرح می شود به روز رسانی فایل به طور مستمر است که باعث کند شدن دسترسی ربات های موتورجستجو به صفحات سایت است.

اما شما بعد از ساختن فایل  robot.txt باید بتوانید آن را بررسی کرده تا مطمئن شوید که عملکرد آن به صورت مناسب اجرا می شود و یا خیر. ابتدا آدرس فایل robot.txt  را باز کنید و با بررسی تمامی دستورالعمل های درون آن می توانید نسبت به صحیح بودن دستورات در ابتدای کار مطمئن شوید و چنانچه مشکلات فنی خاصی در فایل  robot.txt وجود نداشته باشد شما با وارد شدن به سایت Google Search Console می توانید از بخش robots.txt Tester گزینه Test انتخاب کنید. چنانچه این دکمه یعنی دکمه Test با رنگ سبز Allowed نمایش داده شود یعنی هیچ مشکل و ایرادی وجود ندارد. اما چنانچه عیب و ایراد خاصی وجود داشته باشد دستورالعمل ها همگی با یک حالت هایلایت مشخص می شوند.

شما با استفاده از ابزار گوگل این اختیار را دارید تا بتوانید به درستی تمامی صفحات خود را با آدرس های گوناگون مورد تجزیه و تحلیل قرار دهید و متوجه شوید که کدام صفحه به چه دلیلی برای ربات مسدود سازی شده است. به دلیل وجود ویرایشگر های آنلاین شما می توانید فایل های خود را به شکل استاندارد و پیشنهادی به راحتی به نمایش بگذارید. اما بهتر است بدانید که استفاده از فایل robot.txt باعث می شود تا شما به شکلی درست و مناسب قادر باشید از هر کدام از دستورالعمل ها برای ایندکس به نحو احسن بهره مند شوید بهتر است گول ظاهر ساده و متنی فایل robot.txt نخورید چون قابلیت های ویژه ای را به نمایش می گذارد.

اما نکات خاصی وجود دارد که شما به واسطه آن باید فایل  robot.txt خود را بررسی کنید و توجه داشته باشید که هرگونه عملکرد غیر مناسب مانند زیاده روی باعث می شود تا شما نتیجه مناسبی را دریافت نکنید.سعی کنید بعد از ساخت فایل robot.txt حتما فایل ساخته شده را مورد بررسی قرار دهید؛ چراکه اگر قسمتی از سایت مسدود شده باشد، صددرصد بعد مشکلات خاصی برای شما به وجود می آید. همچنین شما نباید فایل هایی مانند CSS و JS را مسدود کنید به این دلیل که ربات های گوگل همیشه مانند یک کاربر سایت را ایندکس می‌کنند و اگر شما فایل هایی مانند CSS و JS مسدود کنید، احتمال عدم بارگذاری مناسب بسیار بالاست.

حتی ایندکس شدن دیگر صفحات با تاثیرات بسیار منفی روبرو می‌شود و چنانچه از وردپرس استفاده می کنید نباید مسیرهای همانند wp-admin و یا پوشه هایی مانند wp-include را مسدود کنید به این دلیل که وردپرس خود می‌تواند به واسطه تگ های متا به صورت اتوماتیک این کار را انجام دهد، تا حد امکان از دستورات زیاد برای ربات ها استفاده نکنید؛ چرا که این کار نمی تواند بازدهی مناسبی داشته باشد و حتی اگر قصد دارید که برخی از صفحات سایت به هردلیلی ایندکس نشوند شما می توانید از متا تگ هر صفحه نیز به سادگی استفاده کنید. البته شما صفحات تعداد بالا را نمی توانید برای این کار در نظر بگیرید به این خاطر که شاید بازدهی مناسبی نداشته باشد وکار را برای شما کمی سخت کند.

Robot.txt چیست؟

Robot.txt یک فایل متنی است که طبق دستوراتی که در آن وارد می کنید، به ربات ها مجوز می دهد صفحات ، فایل ها وفولدرهایی که  مورد نظر شماست در سایت بررسی وایندکس شود و ازایندکس شدن صفحات نا مربوط ،ایجاد تاثیر منفی در سئوی سایت و افزایش امنیت در برابر حملات احتمالی جلو گیری کنید.

در صورتی که فایل robot.txt را پیدا نکردیم چه باید کنیم؟

به هر حال در برخی از شرایط ممکن است فایل متنی robot.txt در هاست شما به هر دلیلی پیدا نشود اما شما می توانید این فایل را ساخته و با حروف کوچک آن را ذخیره کنید. این نکته را به هیچ عنوان نباید از یاد ببرید که تمامی  دستورالعمل‌ها را شما بر روی فایل robot.txt باید ذخیره سازی کنید در این حالت است که فایل شما ما به راحتی ساخته و شما می توانید از آن استفاده کنید.