972 private links
Ce billet de blog exprime des expériences et des opinions personnelles et ne reflète aucune politique officielle de SourceHut.
Au cours des derniers mois, au lieu de travailler sur nos priorités à SourceHut, j'ai passé entre 20 et 100 % de mon temps au cours d'une semaine pour atténuer les chenilles hyper-agressistes à l'échelle. Ce n’est pas la première fois que SourceHut est la mauvaise extrémité de certaines conneries malveillantes ou payé les coûts externalisés de quelqu’un d’autre – tous les deux ans quelqu’un invente une nouvelle façon de ruiner ma journée.
Il y a quatre ans, nous avons décidé d'exiger un paiement pour utiliser nos services d'IC parce qu'il était utilisé abusivement pour extraire la crypto-monnaie. Nous avons alterné entre des périodes de conception et de déploiement d'outils pour réduire cet abus et des périodes de pannes presque complètes lorsqu'elles se sont adaptées à nos atténuations et saturent toute notre calcul avec des mineurs à la recherche d'un profit. Il était déjà assez grave d'avoir à implorer mes amis et ma famille d'éviter d'investir dans l'escroquerie sans que l'escroquerie éclate dans mon entreprise et détruise l'endroit tous les jours.
Il y a deux ans, nous avons menacé d'inscrire le miroir du module Go parce que, pour une raison ou une autre, l'équipe Go pense que l'exécution de térabytes de git clones toute la journée, tous les jours pour chaque projet Go sur git.sr.ht est moins cher que de maintenir n'importe quel état ou d'utiliser des webhooks ou de coordonner le travail entre les instances ou même de concevoir un système de module qui n'est pas.
Maintenant, ce sont des LLM. Si vous pensez que ces chenilles respectent robots.txt alors vous êtes à la suite de plusieurs hypothèses de bonne foi supprimées de la réalité. Ces bots hurlent tout ce qu'ils peuvent trouver, robots.txt être damnés, y compris des points d'extrémité coûteux comme git blâme, chaque page de chaque journal, et chaque engagement dans chaque repo, et ils le font en utilisant des User-Agents aléatoires qui se chevauchent avec les utilisateurs finaux et proviennent de dizaines de milliers d'adresses IP - pour la plupart résidentielles, dans des sous-réseaux non liés.
Nous assistons à des dizaines de brèves coupures par semaine, et je dois revoir nos atténuations plusieurs fois par jour pour éviter que ce nombre ne devienne plus élevé. Quand j'ai le temps de travailler sur autre chose, je dois souvent le laisser tomber quand toutes nos alarmes éclatent parce que notre série actuelle d'atténuations a cessé de fonctionner. Plusieurs tâches hautement prioritaires chez SourceHut ont été retardées de quelques semaines, voire des mois parce que nous continuons d'être interrompus pour traiter ces robots, et de nombreux utilisateurs ont été affectés négativement parce que nos atténuations ne peuvent pas toujours distinguer de manière fiable les utilisateurs des bots.
Tous mes amis sysadmin s'occupent des mêmes problèmes. Je demandais à l'un d'eux des commentaires sur un projet de cet article et notre discussion a été interrompue pour nous attaquer à une nouvelle vague de bots LLM sur leur propre serveur. Chaque fois que je m'assois pour des bières ou un dîner ou pour me socialiser avec mes amis sysadmin, il ne faut pas longtemps avant que nous nous plaignions des robots et que nous demandions si l'autre a craqué le code pour les débarrasser une fois pour toutes. Le désespoir dans ces conversations est palpable.
Que ce soit les escrocs de la crypto-monnaie qui exploitent des ressources informatiques avec des logiciels libres ou les ingénieurs de Google trop paresseuse pour concevoir correctement leur logiciel ou silicon Valley arrachant toutes les données qu'ils peuvent mettre la main aux frais de tous les autres... Je suis malade et fatigué d'avoir tous ces coûts externalisés directement dans mon putain. Faites quelque chose de productif pour la société ou éloignez-vous de mes serveurs. Mettez tous ces milliards et milliards de dollars vers le bien commun avant que les sysadmins commencent collectivement une révolution pour le faire pour vous.
Veuillez cesser de légitimer les LLM ou les générateurs d'images d'IA ou GitHub Copilot ou l'une de ces ordures. Je vous supplie d'arrêter de les utiliser, d'arrêter de parler d'eux, d'arrêter d'en faire de nouveaux, de s'arrêter. Si faire sauter du CO2 dans l'air et ruiner toute notre eau douce et traumatiser les travailleurs bon marché et faire tous les sysadmins, vous savez misérable et arracher du code et des livres et de l'art à grande échelle et ruiner notre putain de démocratie ne suffit pas pour que vous laissiez cette merde tranquille, qu'est-ce qui est ?
Si vous travaillez personnellement sur le développement de LLM et al., sachez ceci : je ne travaillerai plus jamais avec vous, et je me souviendrai de quel côté vous avez choisi quand la bulle éclatera.