Crawl

Robots.txt နှင့် Sitemap စစ်ဆေးကိရိယာ

domain တစ်ခုကို ကူးထည့်ပြီး robots.txt ကို စစ်ဆေးကာ ချိတ်ဆက်ထားသော sitemap များ (root/blog/blacklist/forum မျိုးကွဲများ) ကို crawl လုပ်ပါ။ ပိတ်ဆို့ထားသော URL များ၊ မိဘမဲ့ sitemap များနှင့် ပုံစံမမှန်သော entry များကို ပြသပါသည်။ Client ဘက်တွင်သာ လုပ်ဆောင်သည်—CORS ကြောင့် ကန့်သတ်ခံရနိုင်သည်။

စစ်ဆေးမှု

ကျွန်ုပ်တို့ စစ်ဆေးသည့်အရာများ

  • robots.txt ရရှိနိုင်မှုနှင့် Disallow/Allow စည်းမျဉ်းများ။
  • Sitemap ရှာဖွေမှု (robots.txt + /sitemap.xml, /blog/sitemap.xml ကဲ့သို့ လမ်းကြောင်းများ)။
  • sitemap တစ်ခုစီအတွက် URL အရေအတွက်နှင့် ပုံစံမမှန်သော entry များ။
  • ပိတ်ဆို့ထားသော်လည်း sitemap တွင် ပါဝင်နေသော URL များကို အမှတ်အသားပြုသည်။