Közben a Geminivel összeszenvedtem az Nginxben a normális szűrést, ami az access.log-ból is kivágja a sok szar robotot. Szóval kell egy olyan blokk, hogymap $http_user_agent $allow_user {
"~*AITCSRoboti" 0;
"~*Accoona" 0;
"~*AhrefsBot" 0;
"~*Amazonbot" 0;
"~*Arachnophilia" 0;
"~*AspiegelBot" 0;
"~*AwarioBot" 0;
"~*AwarioSmartBot" 0;
"~*BLEXBot" 0;
"~*BLEXbot" 0;
"~*BackDoorBot" 0;
"~*BackRub" 0;
"~*Baidu" 0;
"~*Barkrowler" 0;
"~*BecomeBot" 0;
"~*BlowFishi" 0;
"~*BomboraBot" 0;
"~*CCBot" 0;
"~*CatchBot" 0;
"~*CherryPicker" 0;
"~*Clickagy" 0;
"~*Cliqzbot" 0;
"~*ConveraCrawler" 0;
"~*CrowdTanglebot" 0;
"~*CyberSpyder" 0;
"~*DataForSeoBot" 0;
"~*DotBot" 0;
"~*EchoboxBot" 0;
"~*EmailCollector" 0;
"~*Exabot" 0;
"~*Eyeotabot" 0;
"~*Foobot" 0;
"~*Genieo" 0;
"~*GetURL" 0;
"~*Gigabot" 0;
"~*GrapeshotCrawler" 0;
"~*GumGum" 0;
"~*HTTrack" 0;
"~*Huaweisymantecspider" 0;
"~*IAScrawler" 0;
"~*Java" 0;
"~*JikeSpider" 0;
"~*Jobboerse" 0;
"~*Jyxobot" 0;
"~*Leikibot" 0;
"~*LinkScan" 0;
"~*LinkisBot" 0;
"~*LivelapBot" 0;
"~*MAZBot" 0;
"~*MBCrawler" 0;
"~*MJ12bot" 0;
"~*MauiBot" 0;
"~*MojeekBot" 0;
"~*NTENTbot" 0;
"~*NerdyBot" 0;
"~*Nimbostratus-Bot" 0;
"~*Offline Explorer" 0;
"~*Onespot-ScraperBot" 0;
"~*Openbot" 0;
"~*OutclicksBot" 0;
"~*PaperLiBot" 0;
"~*PlurkBot" 0;
"~*Proximi" 0;
"~*Quantcastboti" 0;
"~*Qwantify" 0;
"~*SEOkicks" 0;
"~*SEOkicks-Robot" 0;
"~*SERankingBacklinksBot" 0;
"~*ScholarBot" 0;
"~*Scrap" 0;
"~*Screaming Frog SEO Spider" 0;
"~*Semantici" 0;
"~*Semrush" 0;
"~*SemrushBot" 0;
"~*SentiBot" 0;
"~*SerendeputyBot" 0;
"~*SeznamBot" 0;
"~*SirdataBot" 0;
"~*SiteCheck-sitecrawl" 0;
"~*SiteSnagger" 0;
"~*Snooper" 0;
"~*Sogou" 0;
"~*Sosospider" 0;
"~*SuperBot" 0;
"~*TTD-Content" 0;
"~*Taboolabot" 0;
"~*TeleportPro" 0;
"~*TkBot" 0;
"~*TweetmemeBot" 0;
"~*URLSpiderPro" 0;
"~*Vagabondo" 0;
"~*VelenPublicWebCrawler" 0;
"~*VoilaBot" 0;
"~*VoluumDSP-content-bot" 0;
"~*WebCopier" 0;
"~*WebReaper" 0;
"~*WebStripper" 0;
"~*WebZIP" 0;
"~*Xaldon_WebSpider" 0;
"~*YaK" 0;
"~*ZGrab" 0;
"~*ZoominfoBot" 0;
"~*adbeat_bot" 0;
"~*admantx" 0;
"~*admantx-usaspb" 0;
"~*aiHitBot" 0;
"~*bingbot" 0;
"~*coccocbot" 0;
"~*contxbot" 0;
"~*findlinks" 0;
"~*httplib" 0;
"~*linkdexbot" 0;
"~*linkfluence.com" 0;
"~*meta-externalagent" 0;
"~*mtbot/1.1.0i" 0;
"~*proximic" 0;
"~*python" 0;
"~*serpstatbot" 0;
"~*weborama-fetcher" 0;
default 1;
}(Igen, ezt fel lehetne regexel írni egy sorba is, de a Gemini azt mondta, hogy az a leglassabb, így gyorsabb és egyébként áttekinthetőbb is.) Aztán a szerverek blokkjaiba meg mehet ez: access_log /var/log/nginx/access.log combined if=$allow_user;
if ($allow_user = 0) {
return 444;
}És itt szeretném megjegyezni, hogy a bingbot-ot amúgy nem akartam kivágni, mert miért csesszek ki a bing userekkel, de sajnos kiderült, hogy a bing botja már rohadtul nemcsak a keresési indexeket gyártja, hanem a Copilot nevű emberiségellenes bűncselekményhez is scrapel. Mondjuk még ezt is lenyeltem volna, de amikor épp kurwára örülvén, hogy végre nem lesz több GB az access.log állandóan, elrotáltam az Nginx logjait, majd megrökönyödve néztem, hogy rögtön elkezdett hízni, mert a bingbot scrapelt, akkor úgy döntöttem, hogy ez viszont már pofátlanság, szóva a májkiszoft megint csak kapja be. Kedves bingjúzerek, sajnálom. Így jártatok. Tanulság (megint csak): ne használj mikrofos termékeket (binget se), mert nem azt csinálja, amire neked van szükséged, hanem amit a mikrofoszt akar. Ez van. Ha nem szórta volna tele a logot, akkor nem baszom ki, de így kabbefasz van. |