आज के इस पोस्ट में हम जानेंगे कि robots.txt फ़ाइल क्या है, इसे कैसे Use किया जाता है। साथ ही इसे कैसे बनाएं व इसके Syntax के बारे में भी।
किसी भी साइट को Search engines में सही से दिखने या Index होने के लिए जरूरी है कि साइट के robots.txt फाइल में search engines के bots को साइट क्रॉल करने की परमिशन दी गई हो।
हम इस आर्टिकल में, WordPress और गूगल Blogger में कैसे robots.txt फाइल Add करते हैं ये भी जानेंगे।
robots.txt फाइल किसी भी ब्लॉग/वेबसाइट के लिए सबसे Important फाइल होती है। इसे हमेशा root directory में Save किया जाता है।
इसकी सहायता से हम साइट के किसी भी पेज, इमेज, pdf फाइल इत्यादि को Crawl होने से रोक सकते हैं जिसे साइट owner visitors को नहीं दिखाना चाहता।
इसी फाइल के Predefined rule को search इंजन के bots फॉलो करते हुए साइट Crawl करते हैं।
चलिए इस robots.txt के हर फैक्ट्स के बारे में जानते हैं।
robots.txt क्या है
Contents
robots.txt एक साधारण सी Text फाइल होती है। इसका Use सर्च इंजन के bots को ये बताने के लिए होता है कि साइट पर क्या और कैसे Crawl करना है।
ये हमेशा सार्वजनिक रूप से उपलब्ध रहती है। जिसे आप किसी भी साइट के robots.txt फ़ाइल को साइट के Url के अंत मे टाइप कर सर्च कर सकते हैं। जैसे-
http://example.com/robots.txt
जब भी सर्च इंजन्स के bots या crawlers किसी साइट पर crawl करने पहुंचते हैं तो वो सबसे पहले साइट पर मौजूद robots.txt पर पहुंचते हैं।
उसके फ़ाइल में allowed contents को वो क्रॉल करते हैं। यदि किसी साइट पर robots.txt फ़ाइल मौजूद नहीं है तो Crawlers के लिए ये साइट बिना Pass के कहीं भी घूमने जैसा होगा।
यानी crawlers किसी भी पेज पर कहीं भी आ जा सकते हैं और जिन कंटेंट्स को नहीं दिखाना है उन्हें भी SERP में दिखा सकते हैं।
हालांकि साइट फिर भी Index होती हैं लेकिन कभी कभी 404 Errors भी बताती हैं। एक बेहतर SEO पहुंच के लिए इसका उपयोग जरूर करना चाहिए।
robots.txt का Use कैसे करें
यदि आप WordPress या किसी भी CMS User हैं तो जैसा कि ऊपर बताया जा चुका है, आप अपने साइट के अंत मे robots.txt लिखकर चेक कर सकते हैं।
यदि result में खाली या Empty स्क्रीन दिखती है तो इसका मतलब साइट के लिए robots.txt फाइल नहीं बनी है। हालांकि वर्डप्रेस में default रूप में ये फ़ाइल कभी कभी Save रहती है।
◆ Firewall क्या है, कैसे काम करता है
खैर, अगर आप अपने साइट के लिए ये फ़ाइल बनाकर Save करना चाहते हैं तो सबसे पहले किसी भी Text editor या PCs पर Notepad को ओपन कर लें।
Notepad की जगह MS word का उपयोग न करें वरना कोड्स में भिन्नता हो सकती है। किसी दूसरे Text editor का use करने से पहले देख लें कि वो UTF-8 का इस्तेमाल करता हो।
उसके बाद किसी भी साइट के robots.txt फ़ाइल ओपन कर उसे Copy कर लें।
फिर उसे अपने Notepad पर paste कर दें। फिर उसमें दिए गए Instructions को देखें जो आपको नहीं रखना है उसे Delete कर दें। जब आप Paste करेंगे तो उस साइट का url भी होगा उसकी जगह आप अपना url डाल दें।
हालांकि सबसे बेहतर और सिंपल file जिसे आप कॉपी/पेस्ट कर सकते हैं वो नीचे दिया गया है –
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/ Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://sitename.com/post-sitemap.xml
Sitemap: https://sitename.com/page-sitemap.xml
इसमें आप अपने साइट का नाम और http/https को अपने साइट के अनुसार बदल लें।
robots.txt के Syntax
नीचे हम कुछ syntax के बारे में बात करेंगे। जिससे आपको इस टॉपिक को समझने में मदद मिलेगी।
User-agent: *
इसका मतलब है सभी सर्च इंजन्स के bots जो इस साइट पर आएंगे उन्हें इस फ़ाइल के रूल्स मानने होंगे।
User-agent: googlebot
ये सिर्फ googlebot के crawler के लिए है। इसकी जगह bing या अन्य सर्च इंजन्स के bots के नाम हो सकते हैं।
Allow: /wp-content/uploads
इसका मतलब सभी आने वाले crawlers वर्डप्रेस पर अपलोड किए गए सभी कंटेंट को क्रॉल कर सकते हैं।
Disallow: /wp-admin/
हर वर्डप्रेस साइट में ये सबसे Important syntax है। इसका मतलब है कि crawlers साइट के एडमिन सेक्शन को crawl ना करें। यानी इस सेक्शन के allow कर देने से साइट के Hack होने की संभावना काफी ज्यादा हो जाती है। इसलिए इसे Disallow ही रखें।
User-agent: googlebot
Disallow: /
ये syntax किसी भी सर्च इंजन्स के crawler को इस साइट के किसी भी पेज को crawl करने की Permission नहीं देता।
User-agent: *
Disallow:
इस syntax में disallow के सामने कुछ नहीं है। इसका मतलब crawlers साइट पर सबकुछ क्रॉल कर सकते हैं।
User-agent: bingbot
Crawl-delay: 160
ये syntax बिंग सर्च इंजन के bot को ये निर्देश दे रहा है कि साइट के पेज को 160 माइक्रो सेकंड प्रतीक्षा करने के बाद क्रॉल करे।
Blogger में robots.txt कैसे Add करें
अगर आप Google के ब्लॉगर पर अपना ब्लॉग Run करते हैं तो गूगल आपके लिए robots.txt self-generate करता है।
अगर आप फिर भी इसे Modify करना चाहते हैं तो ये फॉलो करें –
Blogger dashboard > Setting >search preferences
इसके सामने आपको custom robots.txt? का ऑप्शन दिखेगा।
ठीक इसके सामने Enable custom robots.txt content? के पास Yes वाले radio button पर क्लिक करें, और अपना robots.txt file add करें।
उसके बाद नीचे Save changes पर क्लिक कर दें।
WordPress में robots.txt कैसे Add करें
यहां हम Yoast seo plugin के माध्यम से robots.txt फ़ाइल को add करेंगे।
सबसे पहले Wordpres के dashbord पर जाएं फिर नीचे Yoast seo पर क्लिक करें।
◆ Broadband क्या है, कैसे काम करता है
उसके बाद Tools पर, tools पर क्लिक करने के बाद आपके सामने दूसरे row में File editor पर क्लिक कर अपना robots.txt फ़ाइल Add कर सकते हैं।
इसके बाद जो robots.txt फाइल yoast के माध्यम से आपने अभी अभी add किया है उसे copy कर लें।
उसके बाद आप अपने गूगल search console के dashboard में लॉगिन हो जाएं।
अगर version नया है तो नीचे ‘go to the old version‘ पर क्लिक कर पुराने वर्जन पर जाएं।
इसमें आप Left साइड में नीचे की ओर देखेंगे तो ‘क्रॉल करना‘ का option दिखेगा। उसपर क्लिक कर नीचे ‘robots.txt जाँचकर्ता‘ पर क्लिक करें।
अब आपके सामने दाएं साइड में एक बॉक्स दिखेगा, जिसमे आप Yoast फाइल से Copy किया हुआ robots.txt को Paste कर दें।
इसके बाद नीचे Submit पर क्लिक कर दें।
जब आप Submit पर क्लिक करेंगे तो आपके सामने 3 ऑप्शन आएंगे। उसमे सबसे नीचे ‘Ask google to update‘ के सामने ‘Submit‘ पर क्लिक कर दें।
इसमे आप अपने Url की जांच भी कर सकते हैं। साइट नाम के बाद अपने किसी भी पोस्ट के लिंक को नीचे एड्रेस बॉक्स में enter कर Test पर क्लिक करें। अगर गूगल bot उसे क्रॉल करेगा तो वो valid होगा।
आपको robots.txt एरिया में वो valid syntax पर लाल या हरे पट्टी में शो करेगा।
इस तरह आप खुद अपने robots.txt फ़ाइल को अपने साइट या ब्लॉग पर Add कर सकते हैं।
robots.txt के Advantage
● ये bandwidth की बचत करता है। क्योंकि robots.txt फ़ाइल से bots को exactly क्या crawl करना है वो तुरंत पता चल जाता है।
● इसके होने से साइट पर 404 Error नहीं होती।
● इसके सही उपयोग से आप duplicate कंटेंट के Issues को रोक सकते हैं, गूगल इस पर साइट को Penalize भी करता है।
● इसके सही उपयोग से आपकी साइट की सुरक्षा भी ठीक रहती है। वरना कोई भी अपने ब्राउज़र से ‘site url/wp-admin’ डालकर आपकी साइट एक्सेस कर सकता है।
● ये SEO के लिहाज से भी बेहतर माना जाता है।
इस आर्टिकल को गूगल पर पढ़ने के लिए यहां क्लिक कर पढ़ सकते हैं।
दोस्तों! अगर हमारा ये पोस्ट आपको पसंद आया हो तो इसे अपने दोस्तों व सोशल मीडिया पर शेयर करना ना भूलें।
मेरा उद्देश्य अपने पाठकों को हमेशा Valuable कंटेंट प्रोवाइड कराना होता है। अगर आपके मन में कोई सुझाव या सवाल हो तो हमे कमेंट में जरूर बताएं।
साथ ही हमारे सभी लेटेस्ट पोस्ट्स की updates पाने के लिए इसे Subscribe जरूर करें।
इन्हें भी देखें
◆ Best WordPress प्लगिन्स की जानकारी
◆ Keywords everywhere के एक्सटेंशन को एंड्राइड में कैसे इनस्टॉल करें
◆ How to use a Custom domain on blogger in hindi
◆ How to make a website in hindi a step by step hindi guide
◆ सरदार वल्लभभाई पटेल Biography व Statue of Unity
◆ Top 5 Open source free एंटीवायरस PCs के लिए
Thanks for sharing Article. Please Click Best online trading broker
Thanks for giving this article.Very informative information.
As a tech blogger, I loved reading it and surely recommend to others.keep posting …..
ROBOTS.TXT FILE AND HOW TO ADD IN THE WEBSITE
Appreciation to my father who told me about this website, this webpage is in fact amazing.|
I am truly grateful to the owner of this web site who has shared this impressive piece of writing at at this place.|