|

Dev Browser : donner un vrai navigateur web a un agent IA avec une API scriptable

https://github.com/SawyerHood/dev-browser

📌 Dev Browser transforme un agent IA en opérateur web capable d’ouvrir des pages, cliquer, remplir des formulaires, lire le DOM, prendre des captures et enchaîner plusieurs actions dans le même onglet avec une API proche de Playwright, tout en gardant l’exécution des scripts dans un bac à sable QuickJS.

L’intérêt concret au quotidien est dans la continuité d’exécution. Au lieu de relancer une session navigateur complète à chaque action, Dev Browser permet de naviguer une fois puis d’interagir sur plusieurs scripts successifs avec la même page. Cela simplifie les tâches où l’agent doit observer, agir, réévaluer puis continuer, par exemple pour se connecter à un service local, remplir un formulaire long, contrôler un tunnel d’achat, ou comparer plusieurs états d’une interface sans repartir de zéro. Cette persistance réduit les frictions et évite une partie des scripts monolithiques difficiles à maintenir.

Le démarrage est direct. L’installation passe par npm install -g dev-browser, puis dev-browser install pour récupérer Playwright et Chromium. Ensuite, deux modes couvrent l’essentiel des usages. Le mode headless lance un navigateur dédié et exécute immédiatement un script. Le mode connect se branche sur une instance Chrome déjà ouverte, ce qui est pratique pour reprendre un contexte existant, garder des cookies actifs ou intervenir dans un navigateur de travail déjà lancé. Dans les deux cas, l’outil expose des objets de page qui acceptent les opérations classiques: goto, click, fill, locator, evaluate, screenshot et d’autres primitives utiles pour une automatisation pilotée par un agent.

Au milieu de ce workflow, la brique la plus intéressante est la couche de sécurité. Les scripts ne tournent pas dans Node.js mais dans un environnement QuickJS isolé, avec un périmètre d’accès réduit. Le projet met en avant l’absence d’accès hôte direct et limite l’I/O fichier à un espace dédié sous ~/.dev-browser/tmp/. Pour un usage agentique, c’est un détail important: l’outil cherche à ouvrir le navigateur sans transformer chaque script en commande shell déguisée. Cette séparation aide à garder un cadre plus contrôlé entre les instructions de l’agent et la machine qui exécute réellement les actions.

Points clés

  • 🔒 Exécution sandboxée en QuickJS WASM pour éviter de donner un accès hôte complet aux scripts navigateur.
  • 🌐 Pages persistantes pour enchaîner plusieurs actions sur le même contexte sans repartir de zéro.
  • 🧭 Double mode d’usage avec lancement headless ou connexion à un Chrome déjà ouvert.
  • 🛠️ API proche de Playwright pour réutiliser des gestes connus comme goto, click, fill et locator.
  • 🤖 Intégration explicite avec les agents IA, y compris Claude Code, Amp et Codex via CLI ou skill.
  • 📸 Gestion des captures et lecture d’état avec des fonctions de screenshot et de snapshot pensées pour l’IA.

Sur les cas d’usage, Dev Browser couvre bien les besoins d’exploration guidée et de validation d’interface. Un agent peut l’utiliser pour ouvrir un tableau de bord, lister les onglets disponibles, vérifier le titre d’une page, suivre des sélecteurs, générer des captures, ou collecter un snapshot exploitable dans une boucle d’analyse. Pour les tests ou l’assistance de navigation, cela permet d’avoir un navigateur réellement manipulable sans devoir écrire une suite Playwright complète à la main. L’outil peut aussi servir de pont léger pour des opérations semi-automatisées, quand il faut garder un humain dans la boucle mais accélérer l’exécution des étapes répétitives.

L’écosystème visé est assez clair. Le projet met en avant un usage direct avec les agents via dev-browser --help, qui embarque un guide d’utilisation pour LLM avec exemples et référence API. Il prévoit aussi un mode d’installation historique sous forme de skill ou plugin pour Claude Code, Amp et Codex. Ce point compte si l’objectif est d’ajouter rapidement une capacité web à un environnement agentique existant sans reconstruire toute la chaîne d’outils. Côté dépendances, le paquet repose notamment sur Playwright et quickjs-emscripten, ce qui confirme le choix d’un pilotage navigateur moderne avec une couche d’exécution scriptée isolée.

Concrètement, Dev Browser est surtout intéressant quand le navigateur devient une extension du raisonnement de l’agent et non un simple outil de test. Il donne une couche d’exécution plus contrôlée que des commandes libres, assez de primitives pour agir vraiment sur le web, et une compatibilité naturelle avec les environnements où les agents travaillent déjà. Pour automatiser des parcours, observer des interfaces et boucler rapidement entre lecture et action, c’est un projet qui mérite clairement sa place dans la boîte à outils.

Publications similaires

Laisser un commentaire