bot deny nginx

botの説明サイトと実際のサービスサイトを張っておきます
Semrush は無料では使えないので Disallow: / でよいと思います
Ahrefs は無料で多少使えますが、詳しく見ようと思うと有料
majestic MJ12bot は無料でさわりを見ることができ、詳しく見ようと思うと有料
webmup BLEXbot は無料でさわりを見ることができ、詳しく見ようと思うと有料

・SemrushBot https://ja.semrush.com/bot/ https://ja.semrush.com/
・AhrefsBot https://ahrefs.com/ja/robot https://ahrefs.com/ja/
・MJ12bot https://mj12bot.com/ https://majestic.com/
・BLEXbot http://webmeup-crawler.com/ https://webmeup.com/

robots.txt で botの来襲を防ぐ Semrush Ahrefs MJ12 BLEX 2021

Bytespider

Bytespiderとは?
どうやらTikTokで有名なByteDance社の別のサービス「今日頭条」(Jinri Toutiao)という中国の無料ニュース配信アプリ(直訳すると今日のヘッドラインという意味)のクローラーのようです。情報によるとrobots.txtファイルを無視する俗に言う「お行儀の悪い」Botであることが判明。さらにこれを悪用して他サイトのコンテンツをかき集めた偽ショッピングサイトがあるらしく、詐欺サイトの温床になっているという話も。このような迷惑極まりないBotは断固としてお断りします
【Tips】迷惑系クローラーBytespider🕷️をブロックせよの巻 - アドヴァンテック 2024

    map $http_user_agent $bad_bot {
        default        0;
        "~*AhrefsBot"  1;
        "~*BLEXBot"    1;
        "~*Bytespider" 1;
        "~*MJ12bot"    1;
    }

    server {
    ...
    if ($bad_bot) {
        return 403;
    }
    ...

確認

curl -v http://www.yourdomain.com -A "Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)" > /dev/null

A regular expression should either start from the “~” symbol for a case-sensitive matching, or from the “~*” symbols (1.0.4) for case-insensitive matching.
https://nginx.org/en/docs/http/ngx_http_map_module.html