各botの説明サイトと実際のサービスサイトを張っておきます
Semrush は無料では使えないので Disallow: / でよいと思います
Ahrefs は無料で多少使えますが、詳しく見ようと思うと有料
majestic MJ12bot は無料でさわりを見ることができ、詳しく見ようと思うと有料
webmup BLEXbot は無料でさわりを見ることができ、詳しく見ようと思うと有料・SemrushBot https://ja.semrush.com/bot/ https://ja.semrush.com/
・AhrefsBot https://ahrefs.com/ja/robot https://ahrefs.com/ja/
・MJ12bot https://mj12bot.com/ https://majestic.com/
・BLEXbot http://webmeup-crawler.com/ https://webmeup.com/
Bytespider
Bytespiderとは?
どうやらTikTokで有名なByteDance社の別のサービス「今日頭条」(Jinri Toutiao)という中国の無料ニュース配信アプリ(直訳すると今日のヘッドラインという意味)のクローラーのようです。情報によるとrobots.txtファイルを無視する俗に言う「お行儀の悪い」Botであることが判明。さらにこれを悪用して他サイトのコンテンツをかき集めた偽ショッピングサイトがあるらしく、詐欺サイトの温床になっているという話も。このような迷惑極まりないBotは断固としてお断りします
【Tips】迷惑系クローラーBytespider🕷️をブロックせよの巻 - アドヴァンテック 2024
360Spider
360Spider
中国の検索エンジンHaosouのクローラ
360Spiderと言うユーザーエージェントを残さず、hn.kd.ny.adslと言うホストで来る場合もある
クローラ(ロボット)のユーザーエージェント(UA)一覧 | ホームページ制作 【スタジオCASIS】
map $http_user_agent $bad_bot { default 0; "~*AhrefsBot" 1; "~*BLEXBot" 1; "~*Bytespider" 1; "~*MJ12bot" 1; } server { ... if ($bad_bot) { return 403; } ...
確認
curl -v http://www.yourdomain.com -A "Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)" > /dev/null
A regular expression should either start from the “~” symbol for a case-sensitive matching, or from the “~*” symbols (1.0.4) for case-insensitive matching.
https://nginx.org/en/docs/http/ngx_http_map_module.html
Nginx Ultimate Bad Bot Blocker
悪質なbotのアクセスをNginxでバッサリ切り捨てる #nginx - Qiita 2018
とても参考になる
https://github.com/mitchellkrogza/nginx-ultimate-bad-bot-blocker