972 private links
Ce billet de blog exprime des expériences et des opinions personnelles et ne reflète aucune politique officielle de SourceHut.
Au cours des derniers mois, au lieu de travailler sur nos priorités à SourceHut, j'ai passé entre 20 et 100 % de mon temps au cours d'une semaine pour atténuer les chenilles hyper-agressistes à l'échelle. Ce n’est pas la première fois que SourceHut est la mauvaise extrémité de certaines conneries malveillantes ou payé les coûts externalisés de quelqu’un d’autre – tous les deux ans quelqu’un invente une nouvelle façon de ruiner ma journée.
Il y a quatre ans, nous avons décidé d'exiger un paiement pour utiliser nos services d'IC parce qu'il était utilisé abusivement pour extraire la crypto-monnaie. Nous avons alterné entre des périodes de conception et de déploiement d'outils pour réduire cet abus et des périodes de pannes presque complètes lorsqu'elles se sont adaptées à nos atténuations et saturent toute notre calcul avec des mineurs à la recherche d'un profit. Il était déjà assez grave d'avoir à implorer mes amis et ma famille d'éviter d'investir dans l'escroquerie sans que l'escroquerie éclate dans mon entreprise et détruise l'endroit tous les jours.
Il y a deux ans, nous avons menacé d'inscrire le miroir du module Go parce que, pour une raison ou une autre, l'équipe Go pense que l'exécution de térabytes de git clones toute la journée, tous les jours pour chaque projet Go sur git.sr.ht est moins cher que de maintenir n'importe quel état ou d'utiliser des webhooks ou de coordonner le travail entre les instances ou même de concevoir un système de module qui n'est pas.
Maintenant, ce sont des LLM. Si vous pensez que ces chenilles respectent robots.txt alors vous êtes à la suite de plusieurs hypothèses de bonne foi supprimées de la réalité. Ces bots hurlent tout ce qu'ils peuvent trouver, robots.txt être damnés, y compris des points d'extrémité coûteux comme git blâme, chaque page de chaque journal, et chaque engagement dans chaque repo, et ils le font en utilisant des User-Agents aléatoires qui se chevauchent avec les utilisateurs finaux et proviennent de dizaines de milliers d'adresses IP - pour la plupart résidentielles, dans des sous-réseaux non liés.
Nous assistons à des dizaines de brèves coupures par semaine, et je dois revoir nos atténuations plusieurs fois par jour pour éviter que ce nombre ne devienne plus élevé. Quand j'ai le temps de travailler sur autre chose, je dois souvent le laisser tomber quand toutes nos alarmes éclatent parce que notre série actuelle d'atténuations a cessé de fonctionner. Plusieurs tâches hautement prioritaires chez SourceHut ont été retardées de quelques semaines, voire des mois parce que nous continuons d'être interrompus pour traiter ces robots, et de nombreux utilisateurs ont été affectés négativement parce que nos atténuations ne peuvent pas toujours distinguer de manière fiable les utilisateurs des bots.
Tous mes amis sysadmin s'occupent des mêmes problèmes. Je demandais à l'un d'eux des commentaires sur un projet de cet article et notre discussion a été interrompue pour nous attaquer à une nouvelle vague de bots LLM sur leur propre serveur. Chaque fois que je m'assois pour des bières ou un dîner ou pour me socialiser avec mes amis sysadmin, il ne faut pas longtemps avant que nous nous plaignions des robots et que nous demandions si l'autre a craqué le code pour les débarrasser une fois pour toutes. Le désespoir dans ces conversations est palpable.
Que ce soit les escrocs de la crypto-monnaie qui exploitent des ressources informatiques avec des logiciels libres ou les ingénieurs de Google trop paresseuse pour concevoir correctement leur logiciel ou silicon Valley arrachant toutes les données qu'ils peuvent mettre la main aux frais de tous les autres... Je suis malade et fatigué d'avoir tous ces coûts externalisés directement dans mon putain. Faites quelque chose de productif pour la société ou éloignez-vous de mes serveurs. Mettez tous ces milliards et milliards de dollars vers le bien commun avant que les sysadmins commencent collectivement une révolution pour le faire pour vous.
Veuillez cesser de légitimer les LLM ou les générateurs d'images d'IA ou GitHub Copilot ou l'une de ces ordures. Je vous supplie d'arrêter de les utiliser, d'arrêter de parler d'eux, d'arrêter d'en faire de nouveaux, de s'arrêter. Si faire sauter du CO2 dans l'air et ruiner toute notre eau douce et traumatiser les travailleurs bon marché et faire tous les sysadmins, vous savez misérable et arracher du code et des livres et de l'art à grande échelle et ruiner notre putain de démocratie ne suffit pas pour que vous laissiez cette merde tranquille, qu'est-ce qui est ?
Si vous travaillez personnellement sur le développement de LLM et al., sachez ceci : je ne travaillerai plus jamais avec vous, et je me souviendrai de quel côté vous avez choisi quand la bulle éclatera.
Dans un preprint de 206 pages publié par le MIT Media Lab, Nataliya Kosmyna et ses co-auteurs (disponible intégralement à ce lien) présentent pour la première fois de manière aussi précise les effets de l’utilisation des modèles de langage (LLM) comme ChatGPT sur le cerveau humain <sup>1</sup>.
Le mois dernier, je vous parlais de mon problème lié aux crawlers d’IA en bloquant l’accès à mon serveur à des pays entiers. Aujourd’hui, je vais vous montrer comment j’ai mis en place Anubis avec Traefik pour réussir à ne bloquer (que ?) les crawlers et les bots.
The popularisation of artificial intelligence (AI) has given rise to imaginaries that invite alienation and mystification. At a time when these technologies seem to be consolidating, it is pertinent to map their connections with human activities and more than human territories. What set of extractions, agencies and resources allow us to converse online with a text-generating tool or to obtain images in a matter of seconds?
The power of Cursor for your own website. Onlook lets you edit your React website and write your changes back to code in real-time. Iterate and experiement with AI. Download the open-source, local-first desktop app today.
The largest collection of free stuff on the internet!
Chat with AI
without privacy concernsJan is an open source alternative to ChatGPT that runs 100% offline on your computer. Multiple engine support (llama.cpp, TensorRT-LLM)
Dans le cadre d’un projet personnel, je me suis équipé d’un GPU NVIDIA (une RTX 3060) afin de pouvoir faire tourner convenablement des modèles de LLM en local.
Pour utiliser facilement différent modèle, je m’appuie sur OpenWebUI (avec Ollama) ; comme l’installation peut être un peu épique, je récapitule les différentes étapes ici.
Animate picture with AI
AI picture generator
Découvrez ce que vos tweets révèlent sur vous (attention l'IA est méchante)
Deep Live Cam is a cutting-edge AI tool that enables real-time face replacement in videos or images using just a single photo. Perfect for video production, animation, and more.
Create production-quality visual assets for your projects with unprecedented quality, speed and style-consistency.
L’interface entraînement IA permet l’initiation à l’intelligence artificielle.
The most feature-complete GPT token encoder/decoder with support for OpenAI models: o1, GPT-4o and GPT-4, GPT-3.5 and others.
OpenHands : une plateforme IA pour assister les développeurs dans leurs tâches quotidiennes. Modifier du code, exécuter des commandes, naviguer sur le web et appeler des API.
Use AI to tackle the toil in your backlog, so you can focus on what matters: hard problems, creative challenges, and over-engineering your dotfiles
Yes, it's another chat over documents implementation... but this one is entirely local!
Remove paywalls and summarize articles for free with no login. Supports NYT, Washington Post, and thousands more.
La maison-mère de Facebook et Instagram, Meta, met le turbo sur l’IA en s’appuyant sur les informations publiées par ses utilisateurs. L’entreprise de Mark Zuckerberg vous a d’ailleurs peut-être déjà envoyé un message pour vous prévenir. Ce mail qui concerne l’Union européenne et le Royaume-Uni, propose aussi de s’opposer à l’utilisation de ses données mais, concrètement, c’est loin d’être aussi simple qu’un clic.