Skip to main content
robotstxt-webtechthoughts

Robotstxt file kya hai aur ye file blog ke liye kitna jruri hai?

Robotstxt :- मैंने robots.txt के बदले robotstxt word का प्रयोग किया है| क्योंकि seo के context में dot(.) को एक seprator की तरह भी use किया जा सकता है|

 

वैसे इस file के बारे में बहुत ही कम लोगों को पता होता है| अगर आप नए blogger हैं, तो मैं पूर्ण रूप से sure हूँ कि आपको इसके बारे में कोई भी जानकारी नहीं होगी| क्योंकि wordpress installation, costmization और Blog post writting के दौरान ऐसे किसी भी word का जिक्र नहीं होता है| वैसे आपको घबराने की जरुरत नहीं है| हम आपको इसके बारे में विस्तार से बताने जा रहे हैं| आप हमारे साथ जुड़े रहें|

 

robotstxt file क्या है?

 

इसे एक example से समझते है| आप कभी किसी बड़े building या shoping mall में गए हैं| अगर हाँ, तो आपने ध्यान दिया होगा, कि ऐसे buliding या mall के entrance पर सारे shops और no entry points का list wall painting के द्वारा दिखाया गया होता है|

 

आपने कभी गौर किया है| ऐसा क्यों किया जाता है| अगर आप सोच रहे हैं, कि ऐसा customers के सुविधा के लिए किया जाता है| आप बिलकुल सही सोच रहे हैं|

 

अब यहाँ पर सबका role समझा देता हूँ| यहाँ पर customer, Searchbot का, Building owner, webmaster  का  और Wall पर  किया गया list, robotstxt file का role अदा कर रहे हैं|

 

अब robotstxt file को define करते हैं|

 

robotstxt file, Webmaster के द्वारा Crawler(Searchbot) को instruct के लिए तैयार एक छोटा सा txt file है| जिसे आमतौर पर site के root folder पर रखा जाता है|

 

वैसे ये file robots exclusion protocol (REP) का एक part है| जो website मानकों (web standard) का एक group हैं| जिसमे एक Searchbot किसी site/blog को किस प्रकार crawl, content को access, index और उस content को, users को किस तरीके से serve करेगा, के बारे में लिखा रहता है|

 

यह क्या काम करता है?

 

Search Engine के लिए सबसे जरुरी link होता है| यह किसी भी site/blog में crawling के लिए link का ही प्रयोग करता है| इसके इस कार्य को spidering कहा जाता है|

 

Searchbot किसी भी site/blog में पहुँचने के बाद तुरंत spidering नहीं करता है| यह spidering करने के पूर्व robotstxt file को search करता है|

 

क्योंकि किसी भी site/blog को किस तरीके से spidering करना है| वो सारा information, robotstxt file पर लिखा रहता है| इसे पढ़ने के बाद ही Searchbot आगे बढ़ता है|

 

अगर उसे यह robotstxt file नहीं मिलता है, तो Searchbot पुरे site/blog को spidering करता है|

 

यह कहाँ पर रहता है?

 

जैसा कि मैंने ऊपर बताया कि Searchbot किसी भी site/blog पर पहुँचने के बाद सबसे पहले robotstxt file को find करते हैं| और इसे find करने के लिए एक ही जगह को search करते हैं| वह जगह है, root directory यानि www.mysite.com/robots.txt पर|

 

अगर आपने robotstxt file को किसी अन्य जगह पर रखा है| जैसे www.mysite.com/document/robots.txt तो भी Searchbot ये मान लेंगे कि आपके site पर robotstxt file नहीं है| और पूरे site/blog को spidering करना start कर देते हैं|

इसलिए robotstxt file को हमेशा root directory पर ही रखें| ताकि Searchbot इसे find कर पाएं|

 

क्या ये file सभी site/blog पर होना जरुरी है?

 

अगर आप अबतक इस post को पढ़ रहे हैं, तो यह बात आपको स्पष्ट हो गई होगी, कि robotstxt user agent(Searchbot) को site/blog के specific part को access करने से रोकने में सक्षम है|

 

मैं यहाँ पर कुछ ऐसी परिस्थितियों का जिक्र करने वाला हूँ| जहाँ पर आपको robotstxt file उपयोग करना beneficial हो सकता है|

 

  • Sitemap का location बताने में|

 

  • Internal search result को SERP पर दिखाने से रोकने में|

 

  • Search Engine को कुछ specific files(PDF, images) को index करने से रोकने में|

 

  • Website के किसी खास section को private रखने में|

 

अगर आपके site/blog पर ऐसा कोई part नहीं है| जिसे आप public होने से बचाना चाहते हैं, तो आपके site/blog को robotstxt file की कोई जरुरत नहीं है|

 

इस .txt file पर प्रयोग होने वाले कुछ terms|

 

User-agent :   

इस term का प्रयोग search crawler को specify करने में किया जाता है| जैसे- googlebot, msnbot इत्यादि|

इसे हम कुछ example के द्वारा समझने का प्रयत्न करते हैं|

 

User-agent : *

Disallow :

इसके नीचे लिखे जानेवाले सभी direction सभी Searchbots पर लागू होते हैं|  Searchbots इसे ऐसे interpret करते हैं|

 

User-agent : Googlebot

इसके नीचे लिखे जानेवाले सभी direction, Googlebot पर लागू होते हैं|  Googlebot इसे ऐसे interpret करता है||

 

Disallow :

site के  सभी या किसी specific directory को crawl न करने का निर्देश देने के लिए इस term का प्रयोग search bot के लिए किया जाता है|

 

Disallow :

इस site के सभी directory accessible हैं|

 

Disallow : /

इस site  का कोई भी directory accessible नहीं हैं|

 

Disallow : /image/

इस site के image directory accessible नहीं हैं|

 

Allow :- इस term को प्रयोग केवल Googlebot के लिए ही किया जाता है| क्योंकि इसे सिर्फ यही समझता है| इस term का प्रयोग तभी किया जाता है| जब किसी directory को Disallow किया गया है| लेकिन उस directory के अंदर स्थित किसी file को Googlebot को access के लिए instruct  किया जाए|

 

User-agent : *

Disallow : /image/

Allow : /image/pink.jpg

इस image directory को disallow किया गया है| बाकि सभी searchbots इसके किसी भी file को access नहीं कर सकते| सिर्फ Googlebot इस directory के अंदर pink.jpg file को access कर सकता है|

 

Complete site को crawl करने के लिए allow कैसे करें?

 

अक्सर सारे webmaster अपने site के हरेक part को crawl करवाना चाहते हैं| कुछ ही webmasters होंगे जो अपने site के कुछ part को crawl करने से बचाना चाहते हैं| मैं यहाँ पर कुछ situation बता discuss कर रहा हूँ| जहाँ पर searchbot पुरे site का crawl करते हैं|

 

  • robotstxt file का ना होना|

 

जैसा कि मैं पहले भी बता चुका हूँ| Searchbot जैसे ही site पर पहुँचता है| वह सबसे पहले इस file को root directory में search करता है| ऐसे में उसे वह file ना मिले तो वह यही सोचता है कि इस site पर ऐसा कोई part नहीं हैं| जहाँ पर मुझे visit नहीं करना है| और वह पुरे site को crawl करना start कर देता है|

  • इस file का खाली होना|

 

Search bot जैसे ही site पर पहुँचता है| वह सबसे पहले इन file को root directory में search करता है| ऐसे में उसे वह file मिलता है जिसमे कोई statement ही न लिखा गया है| तो वह यही सोचता है कि इस site पर ऐसा कोई part नहीं हैं| जहाँ पर मुझे visit नहीं करना है| और वह पुरे site को crawl करना start कर देता है|

 

  • इस file में इस code का होना|

 

Search bot जैसे ही site पर पहुँचता है| वह सबसे पहले इन file को root directory में search करता है| ऐसे में उसे वह file मिलता है जिसमे कुछ इस प्रकार statement लिखा होता है|

User-agent : *

Disallow :

इस statement को वह इस तरह interpret करता है| इस site पर ऐसा कोई part नहीं हैं| जिसको crawl करने के लिए मुझे मना किया गया है| और वह पुरे site को crawl करना start कर देता है|

 

इस file को तैयार कैसे करें|

 

जैसा की मैंने पहले ही बताया है| यह एक text file है| और इसके अंदर लिखे जानेवाले instructions किसी complex programming language में नहीं लिखे गए हैं| इसलिए इसे आप आसानी से बना सकते हैं|

 

इसके लिए आप notepad या किसी भी plain text editor का प्रयोग कर सकते हैं| यहाँ तक की आप किसी code editor का भी प्रयोग कर सकते हैं|

 

नोट :- आप अपने robotstxt file पर ये code भूल कर भी ना डालें|

 

User-agent : *

Disallow : /

क्योंकि ये code किसी भी searchbots को crawl करने की इजाजत नहीं देता है|

 

वैसे अगर अपने post को SERP के top पर देखना है, तो आपको इस post को पढ़ना चाहिए|

 

 

लेखन बंद करने से पहले :-

मेरी राय में robotstxt file में कुछ भी जोड़ने या घटाने से पहले आपको उसके code के meaning के बारे में पूरी तरह sure हो जाना चाहिए| अन्यथा ये आपके site के ranking को बहुत ज्यादा प्रभावित कर सकता है|

 

मैंने robotstxt file के बारे में सरल शब्दों में इस post के द्वारा समझाने का प्रयत्न किया है| फिर भी आपके मन में कोई doubt है, तो आप मुझे बेझिझक comment कर सकते हैं| मैं आपके comment का reply अवश्य करूँगा|

 

अगर ये post आपको informative लगे, तो इसे अपने प्रियजनों के साथ share करें|

Founder , WebtechThoughts

Barun Chandra is technology enthusiast and a blogger. He is fond of technology in depth and writes posts in simple words to make understand easy.

Get Free Email Updates!

Signup now and receive an email once I publish new content.

I agree to have my personal information transfered to MailChimp ( more information )

I will never give away, trade or sell your email address. You can unsubscribe at any time.

Leave a Reply

Your email address will not be published. Required fields are marked *