| |

Ghost OS : automatiser des actions macOS complètes avec un agent IA qui apprend vos workflows

https://github.com/ghostwright/ghost-os

📌 Ghost OS transforme un agent IA en opérateur macOS capable d’agir directement dans les applications, avec un mode d’exécution local qui conserve les données sur la machine et un système de recettes JSON pour rejouer des workflows de manière fiable.

La plupart des assistants savent déjà lire du code, proposer des correctifs et lancer des commandes, mais ils restent limités dès qu’une action doit sortir du terminal ou du navigateur. Ghost OS comble ce manque en branchant l’agent sur l’interface native de macOS via MCP. Le résultat est concret: l’agent peut ouvrir une fenêtre, sélectionner un champ, saisir du texte, valider une action et enchaîner plusieurs étapes sans intervention manuelle, ce qui réduit fortement les micro-tâches répétitives.

L’approche technique repose d’abord sur l’accessibility tree de macOS, donc sur une structure d’éléments nommés et actionnables plutôt que sur des captures d’écran interprétées au pixel près. Cette base rend les interactions plus stables dans les apps natives et simplifie la recherche d’éléments avec des identifiants lisibles. Quand ce niveau n’est pas suffisant, notamment dans certaines interfaces web dynamiques, Ghost OS active un fallback visuel local avec ShowUI-2B pour localiser des cibles à l’écran sans envoyer le contexte vers un service cloud.

Pour l’usage quotidien, la valeur est immédiate sur des scénarios concrets: envoyer des e-mails formatés, ranger des fichiers Finder selon des règles, exécuter des suites d’actions dans Slack, récupérer un document depuis un portail interne, ou préparer une routine de suivi en fin de journée. Là où un agent classique répète la même phase de raisonnement à chaque exécution, Ghost OS enregistre le workflow sous forme de recette JSON et le relance ensuite avec des paramètres différents. Cela permet de passer d’une logique “assistant conversationnel” à une logique “opérateur reproductible”.

Le démarrage est simple avec Homebrew: installation du binaire puis ghost setup. Cette étape prépare les permissions système nécessaires, configure MCP et met en place les briques associées, dont la partie vision locale. Sur les environnements macOS beta où Homebrew peut bloquer, une installation manuelle est prévue avec extraction d’une archive, copie des binaires et mise en place des ressources dans les chemins attendus. Le projet précise aussi un build depuis les sources avec Swift 6.2+, ce qui convient pour auditer ou adapter le comportement.

Points clés:

  • 🖥️ Pilotage d’apps macOS natives, pas seulement des onglets navigateur.
  • 🧭 Lecture prioritaire de l’arbre d’accessibilité pour des interactions plus robustes.
  • 👁️ Fallback vision local (ShowUI-2B) quand les éléments ne sont pas assez exposés.
  • 🧩 22 outils MCP couvrant inspection, actions clavier/souris, fenêtres et synchronisation.
  • 📦 Recettes JSON auditable pour capitaliser les workflows et les partager.
  • 🔒 Exécution locale avec un positionnement fort sur la confidentialité des données.

Le jeu d’outils fourni couvre l’ensemble d’un cycle d’automatisation: observer l’état courant (ghost_context, ghost_state, ghost_find, ghost_read), agir (ghost_click, ghost_type, ghost_press, ghost_hotkey, ghost_scroll, ghost_window), puis synchroniser (ghost_wait) et industrialiser via les recettes (ghost_run, ghost_recipe_save, ghost_recipe_show). Cette granularité est utile pour construire des enchaînements fiables, car elle évite les scripts monolithiques difficiles à diagnostiquer.

La partie recettes est un point différenciant pour un usage production. Une fois un scénario validé, il devient un artefact versionnable: étapes, paramètres, conditions d’attente, logique d’exécution. Un même flux peut ensuite être réutilisé avec d’autres entrées sans réécriture complète. Cela réduit le coût d’exploitation et facilite la transmission d’un workflow entre machines ou entre personnes, tout en gardant une trace explicite de ce que l’agent va réellement faire.

Sur la confidentialité, le projet met en avant une exécution locale bout en bout, y compris pour le module de vision. Cette architecture limite l’exposition des données sensibles affichées à l’écran, ce qui compte pour les boîtes mail, interfaces métiers, consoles d’admin ou documents internes. Le trade-off reste matériel: le modèle vision ShowUI-2B implique un téléchargement local d’environ 2,8 Go et une machine récente côté macOS. Ghost OS cible macOS 14+ et nécessite des autorisations système (accessibilité, capture d’écran) pour fonctionner correctement.

Côté écosystème, Ghost OS est conçu comme une couche MCP compatible avec différents clients: Claude Code, Cursor, VS Code et tout agent parlant MCP. Cette compatibilité évite d’enfermer les workflows dans un seul assistant et permet de conserver les recettes comme actifs portables. Pour une stack orientée agents, cette neutralité est un avantage pratique: on peut faire évoluer le modèle, le client ou le contexte d’exécution sans repartir de zéro sur l’automatisation d’interface.

Concrètement, Ghost OS est pertinent dès qu’un agent doit sortir du chat pour agir dans des applications réelles, avec un niveau de contrôle explicite sur les étapes exécutées. Le projet combine accès natif à l’UI macOS, fallback vision local et apprentissage de workflows rejouables, ce qui en fait une base solide pour automatiser des opérations bureautiques ou techniques sans dépendre d’un pilotage cloud opaque.

Publications similaires

Laisser un commentaire