robots.txt फाइल क्या है इसका Use कैसे करें

0
272
views
robots.txt फाइल क्या है इसका कैसे Use करें

आज के इस पोस्ट में हम जानेंगे कि robots.txt फ़ाइल क्या है, इसे कैसे Use किया जाता है। साथ ही इसे कैसे बनाएं व इसके Syntax के बारे में भी।

किसी भी साइट को Search engines में सही से दिखने या Index होने के लिए जरूरी है कि साइट के robots.txt फाइल में search engines के bots को साइट क्रॉल करने की परमिशन दी गई हो।

हम इस आर्टिकल में, WordPress और गूगल Blogger में कैसे robots.txt फाइल Add करते हैं ये भी जानेंगे।

robots.txt फाइल किसी भी ब्लॉग/वेबसाइट के लिए सबसे Important फाइल होती है। इसे हमेशा root directory में Save किया जाता है।

इसकी सहायता से हम साइट के किसी भी पेज, इमेज, pdf फाइल इत्यादि को Crawl होने से रोक सकते हैं जिसे साइट owner visitors को नहीं दिखाना चाहता।

इसी फाइल के Predefined rule को search इंजन के bots फॉलो करते हुए साइट Crawl करते हैं।

चलिए इस robots.txt के हर फैक्ट्स के बारे में जानते हैं।

robots.txt क्या है 

robots.txt एक साधारण सी Text फाइल होती है। इसका Use सर्च इंजन के bots को ये बताने के लिए होता है कि साइट पर क्या और कैसे Crawl करना है।

ये हमेशा सार्वजनिक रूप से उपलब्ध रहती है। जिसे आप किसी भी साइट के robots.txt फ़ाइल को साइट के Url के अंत मे टाइप कर सर्च कर सकते हैं। जैसे-
http://example.com/robots.txt

जब भी सर्च इंजन्स के bots या crawlers किसी साइट पर crawl करने पहुंचते हैं तो वो सबसे पहले साइट पर मौजूद robots.txt पर पहुंचते हैं।

उसके फ़ाइल में allowed contents को वो क्रॉल करते हैं। यदि किसी साइट पर robots.txt फ़ाइल मौजूद नहीं है तो Crawlers के लिए ये साइट बिना Pass के कहीं भी घूमने जैसा होगा।

यानी crawlers किसी भी पेज पर कहीं भी आ जा सकते हैं और जिन कंटेंट्स को नहीं दिखाना है उन्हें भी SERP में दिखा सकते हैं।

हालांकि साइट फिर भी Index होती हैं लेकिन कभी कभी 404 Errors भी बताती हैं। एक बेहतर SEO पहुंच के लिए इसका उपयोग जरूर करना चाहिए।

robots.txt का Use कैसे करें

यदि आप WordPress या किसी भी CMS User हैं तो जैसा कि ऊपर बताया जा चुका है, आप अपने साइट के अंत मे robots.txt लिखकर चेक कर सकते हैं।

यदि result में खाली या Empty स्क्रीन दिखती है तो इसका मतलब साइट के लिए robots.txt फाइल नहीं बनी है। हालांकि वर्डप्रेस में default रूप में ये फ़ाइल कभी कभी Save रहती है।

Firewall क्या है, कैसे काम करता है

खैर, अगर आप अपने साइट के लिए ये फ़ाइल बनाकर Save करना चाहते हैं तो सबसे पहले किसी भी Text editor या PCs पर Notepad को ओपन कर लें।

Notepad की जगह MS word का उपयोग न करें वरना कोड्स में भिन्नता हो सकती है। किसी दूसरे Text editor का use करने से पहले देख लें कि वो UTF-8 का इस्तेमाल करता हो।

उसके बाद किसी भी साइट के robots.txt फ़ाइल ओपन कर उसे Copy कर लें।

फिर उसे अपने Notepad पर paste कर दें। फिर उसमें दिए गए Instructions को देखें जो आपको नहीं रखना है उसे Delete कर दें। जब आप Paste करेंगे तो उस साइट का url भी होगा उसकी जगह आप अपना url डाल दें।

हालांकि सबसे बेहतर और सिंपल file जिसे आप कॉपी/पेस्ट कर सकते हैं वो नीचे दिया गया है – 
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/ Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: https://sitename.com/post-sitemap.xml
Sitemap: https://sitename.com/page-sitemap.xml

इसमें आप अपने साइट का नाम और http/https को अपने साइट के अनुसार बदल लें।

robots.txt के Syntax

नीचे हम कुछ syntax के बारे में बात करेंगे। जिससे आपको इस टॉपिक को समझने में मदद मिलेगी।

User-agent: *

इसका मतलब है सभी सर्च इंजन्स के bots जो इस साइट पर आएंगे उन्हें इस फ़ाइल के रूल्स मानने होंगे।

User-agent: googlebot

ये सिर्फ googlebot के crawler के लिए है। इसकी जगह bing या अन्य सर्च इंजन्स के bots के नाम हो सकते हैं।

Allow: /wp-content/uploads

इसका मतलब सभी आने वाले crawlers वर्डप्रेस पर अपलोड किए गए सभी कंटेंट को क्रॉल कर सकते हैं।

Disallow: /wp-admin/

हर वर्डप्रेस साइट में ये सबसे Important syntax है। इसका मतलब है कि crawlers साइट के एडमिन सेक्शन को crawl ना करें। यानी इस सेक्शन के allow कर देने से साइट के Hack होने की संभावना काफी ज्यादा हो जाती है। इसलिए इसे Disallow ही रखें।

User-agent: googlebot
Disallow: /

ये syntax किसी भी सर्च इंजन्स के crawler को इस साइट के किसी भी पेज को crawl करने की Permission नहीं देता।

User-agent: *
Disallow:

इस syntax में disallow के सामने कुछ नहीं है। इसका मतलब crawlers साइट पर सबकुछ क्रॉल कर सकते हैं।

User-agent: bingbot
Crawl-delay: 160

ये syntax बिंग सर्च इंजन के bot को ये निर्देश दे रहा है कि साइट के पेज को 160 माइक्रो सेकंड प्रतीक्षा करने के बाद क्रॉल करे।

Blogger में robots.txt कैसे Add करें

अगर आप Google के ब्लॉगर पर अपना ब्लॉग Run करते हैं तो गूगल आपके लिए robots.txt self-generate करता है।

अगर आप फिर भी इसे Modify करना चाहते हैं तो ये फॉलो करें –

Blogger dashboard > Setting >search preferences

इसके सामने आपको custom robots.txt? का ऑप्शन दिखेगा।

ठीक इसके सामने Enable custom robots.txt content? के पास Yes वाले radio button पर क्लिक करें, और अपना robots.txt file add करें।

उसके बाद नीचे Save changes पर क्लिक कर दें।

WordPress में robots.txt कैसे Add करें

यहां हम Yoast seo plugin के माध्यम से robots.txt फ़ाइल को add करेंगे।

सबसे पहले Wordpres के dashbord पर जाएं फिर नीचे Yoast seo पर क्लिक करें।

Broadband क्या है, कैसे काम करता है

उसके बाद Tools पर, tools पर क्लिक करने के बाद आपके सामने दूसरे row में File editor पर क्लिक कर अपना robots.txt फ़ाइल Add कर सकते हैं।

इसके बाद जो robots.txt फाइल yoast के माध्यम से आपने अभी अभी add किया है उसे copy कर लें।

उसके बाद आप अपने गूगल search console के dashboard में लॉगिन हो जाएं।

अगर version नया है तो नीचे ‘go to the old version‘ पर क्लिक कर पुराने वर्जन पर जाएं।

इसमें आप Left साइड में नीचे की ओर देखेंगे तो ‘क्रॉल करना‘ का option दिखेगा। उसपर क्लिक कर नीचे ‘robots.txt जाँचकर्ता‘ पर क्लिक करें।

अब आपके सामने दाएं साइड में एक बॉक्स दिखेगा, जिसमे आप Yoast फाइल से Copy किया हुआ robots.txt को Paste कर दें।

इसके बाद नीचे Submit पर क्लिक कर दें।
जब आप Submit पर क्लिक करेंगे तो आपके सामने 3 ऑप्शन आएंगे। उसमे सबसे नीचे ‘Ask google to update‘ के सामने ‘Submit‘ पर क्लिक कर दें।

इसमे आप अपने Url की जांच भी कर सकते हैं। साइट नाम के बाद अपने किसी भी पोस्ट के लिंक को नीचे एड्रेस बॉक्स में enter कर Test पर क्लिक करें। अगर गूगल bot उसे क्रॉल करेगा तो वो valid होगा।

आपको robots.txt एरिया में वो valid syntax पर लाल या हरे पट्टी में शो करेगा।

इस तरह आप खुद अपने robots.txt फ़ाइल को अपने साइट या ब्लॉग पर Add कर सकते हैं।

robots.txt के Advantage

● ये bandwidth की बचत करता है। क्योंकि robots.txt फ़ाइल से bots को exactly क्या crawl करना है वो तुरंत पता चल जाता है।

● इसके होने से साइट पर 404 Error नहीं होती।

● इसके सही उपयोग से आप duplicate कंटेंट के Issues को रोक सकते हैं, गूगल इस पर साइट को Penalize भी करता है।

● इसके सही उपयोग से आपकी साइट की सुरक्षा भी ठीक रहती है। वरना कोई भी अपने ब्राउज़र से ‘site url/wp-admin’ डालकर आपकी साइट एक्सेस कर सकता है।

● ये SEO के लिहाज से भी बेहतर माना जाता है।

इस आर्टिकल को गूगल पर पढ़ने के लिए यहां क्लिक कर पढ़ सकते हैं।

दोस्तों! अगर हमारा ये पोस्ट आपको पसंद आया हो तो इसे अपने दोस्तों व सोशल मीडिया पर शेयर करना ना भूलें।

मेरा उद्देश्य अपने पाठकों को हमेशा Valuable कंटेंट प्रोवाइड कराना होता है। अगर आपके मन में कोई सुझाव या सवाल हो तो हमे कमेंट में जरूर बताएं।

साथ ही हमारे सभी लेटेस्ट पोस्ट्स की updates पाने के लिए इसे Subscribe जरूर करें।

 

इन्हें भी देखें

Best WordPress प्लगिन्स की जानकारी

Keywords everywhere के एक्सटेंशन को एंड्राइड में कैसे इनस्टॉल करें

How to use a Custom domain on blogger in hindi 

◆ How to make a website in hindi a step by step hindi guide

◆ सरदार वल्लभभाई पटेल Biography व Statue of Unity

◆ Top 5 Open source free एंटीवायरस PCs के लिए

 

LEAVE A REPLY

Please enter your comment!
Please enter your name here