En 1998, Google lance son moteur de recherche, initialement nommé Backrub, fonctionnant sur un serveur du campus de Stanford doté de 40 Go de données et hébergé dans un boîtier constitué de blocs Duplo. À partir de 2025, les capacités de recherche de Google nécessiteront plusieurs centres de données.
Ryan Pearce a créé un moteur de recherche DIY appelé Searcha Page, y compris une version axée sur la confidentialité nommée Seek Ninja, avec le serveur situé dans sa buanderie à côté de sa laveuse et de sa sécheuse. Pearce déclare : « À l’heure actuelle, dans la buanderie, j’ai plus d’espace de stockage que Google en 2000. Et c’est tout simplement insensé d’y penser. »
Le serveur se trouvait initialement dans la chambre de Pearce, mais a été déplacé vers la buanderie en raison de la chaleur excessive. “La chaleur n’a pas été absolument terrible, mais si la porte reste fermée trop longtemps, c’est un problème”, dit-il.
Les résultats de Searcha Page s’améliorent, avec sa base de données contenant 2 milliards d’entrées, qui devrait atteindre 4 milliards d’ici six mois. En comparaison, Google comptait 24 millions de pages en 1998 et 400 milliards en 2020, comme l’a révélé le procès antitrust États-Unis contre Google LLC.
Le moteur de Pearce utilise de grands modèles de langage pour l’expansion des mots clés et la compréhension du contexte. “Ce que je fais est en fait une recherche très traditionnelle”, explique Pearce. “C’est ce que Google a fait il y a probablement 20 ans, sauf que le seul ajustement est que j’utilise l’IA pour élargir les mots clés et aider à la compréhension du contexte, ce qui est la chose la plus difficile.”
L’IA est un élément clé des moteurs de recherche, y compris des outils tels que la recherche d’images inversée, RankBrain de Google et les résultats à 90 % basés sur le ML de Bing en 2019. L’IA est désormais considérée comme un moyen de créer et de faire évoluer efficacement les moteurs de recherche.
Pearce utilise « l’arbitrage de mise à niveau », en achetant du matériel serveur ancien mais puissant. Son processeur AMD EPYC 7532 à 32 cœurs, qui coûtait plus de 3 000 dollars en 2020, coûte désormais moins de 200 dollars sur eBay. “J’aurais pu me procurer une autre puce pour le même prix, qui aurait eu deux fois plus de threads, mais elle aurait produit trop de chaleur”, dit-il.
L’ensemble du système coûte 5 000 $, dont 3 000 $ consacrés au stockage. La base de code de Pearce compte environ 150 000 lignes de code, avec environ 500 000 lignes de travail itératif.
Searcha Page et Seek Ninja utilisent SambaNova pour un accès rapide au modèle Llama 3 à faible coût. Annie SheaWeckesser, directrice marketing de SambaNova, note que l’accès à des modèles à faible coût devient de plus en plus essentiel pour les développeurs solo comme Pearce, ajoutant que la société « donne aux développeurs les outils nécessaires pour exécuter de puissants modèles d’IA rapidement et à moindre coût, qu’ils travaillent à domicile ou en production ».
Pearce utilise le référentiel Common Crawl pour créer son robot. “Je les apprécie vraiment. J’aimerais pouvoir leur rendre quelque chose en retour, mais peut-être quand je serai plus grand”, dit-il.
Une première tentative d’utilisation d’une base de données vectorielles a échoué, aboutissant à des résultats « très artistiques ». Pearce utilise désormais des résumés de pages générés par LLM. Wilson Lin, un autre développeur de moteurs de recherche DIY, utilise un outil de recherche vectorielle qu’il a lui-même créé appelé CoreNN et s’appuie sur neuf services cloud distincts pour maintenir les coûts à un niveau bas. «C’est beaucoup moins cher que [Amazon Web Services], un montant important», explique Lin. « Et cela me donne suffisamment de capacité pour mener à bien ce projet avec un budget raisonnable. »
Pearce envisageait à l’origine un moteur de recherche pour petits sites similaire à Marginalia, privilégiant les petits sites par rapport aux grandes technologies. “Quelqu’un de Chine m’a contacté parce que… je pense qu’il voulait un moteur de recherche non censuré qu’il voulait alimenter dans son LLM, comme la recherche de son agent”, dit-il.
S’étendre au-delà de l’anglais nécessiterait de nouveaux ensembles de données. Pearce envisage de déplacer le moteur de recherche vers une installation de colocation une fois que le trafic atteint un certain seuil et génère des revenus modestes grâce à la publicité de type affiliation.
“Mon plan est que si je dépasse un certain volume de trafic, je serai hébergé”, explique Pearce. “Il ne restera pas éternellement dans cette buanderie.”
La date limite de candidature pour les prix des entreprises les plus innovantes de Fast Company est le vendredi 3 octobre à 23 h 59. PT.








