DroidClaw : l’agent IA Android piloté en langage naturel
📌 DroidClaw est un agent IA Android qui exécute des actions réelles sur téléphone à partir d’objectifs exprimés en langage naturel. Au lieu d’écrire des scripts rigides, l’utilisateur décrit une intention, et l’agent décide quoi toucher, quoi saisir et quand s’arrêter. Il lit l’écran, décide des actions à exécuter, tape/swipe/click, puis boucle jusqu’au résultat. Le projet vise une idée très concrète: transformer d’anciens smartphones en agents automatisés utiles, même sans API officielle des applications.
Cette promesse est intéressante: transformer un appareil dormant en “worker” d’automatisation mobile, capable de naviguer dans des apps qui n’exposent pas toujours d’API pratique.

L’approche technique repose sur ADB et l’analyse de l’interface à chaque étape. L’agent lit l’état courant de l’écran, consulte un modèle LLM pour déterminer la prochaine action, l’exécute, puis boucle. Cette logique permet de gérer des tâches variées dans des contextes UI changeants, là où des automatisations classiques cassent plus vite.
DroidClaw distingue aussi deux styles d’exécution complémentaires. Les workflows pilotés par IA servent aux tâches adaptatives multi-apps, tandis que les flows déterministes couvrent les routines fixes sans coût LLM. Cette séparation est pratique: on optimise l’intelligence quand nécessaire, et la vitesse quand le scénario est connu d’avance.
- 🤖 Pilotage Android par objectif en langage naturel
- 📱 Contrôle ADB pour tap, type, swipe et navigation d’apps
- 🧠 Workflows IA pour tâches complexes et changeantes
- ⚡ Flows YAML sans IA pour routines rapides et stables
- 🔄 Mécanismes anti-blocage + fallback vision selon l’UI
- 🌐 Exécution locale ou distante (ex: via réseau privé/Tailscale)
Le démarrage est simple: installer les dépendances (ADB + Bun), configurer un provider LLM, connecter un appareil Android, puis lancer le noyau agent. Pour des exécutions répétées, mieux vaut versionner ses workflows et définir des garde-fous sur les actions sensibles.
Le site insiste sur un usage pragmatique: automatiser des tâches utiles dans des apps existantes sans dépendre d’intégrations officielles. C’est particulièrement pertinent pour des scénarios personnels, des prototypes d’assistants mobiles, ou des expérimentations d’opérations low-cost.
Comme tout agent actionnable sur un appareil réel, la sécurité opérationnelle reste essentielle. Il faut isoler les comptes de test, limiter les permissions, surveiller les logs et éviter les environnements critiques tant que les scénarios ne sont pas suffisamment robustes.
lien vers le github: https://github.com/unitedbyai/droidclaw
Le README montre déjà un catalogue important de workflows (messagerie, social, productivité, recherche, lifestyle) et plusieurs providers LLM (Groq, Ollama, OpenRouter, OpenAI, Bedrock). Pour une équipe, cela permet de tester rapidement des cas d’usage concrets comme “résumer des messages”, “faire un briefing quotidien”, “publier un update”, ou “chaîner recherche + envoi sur app de chat”.
En résumé, DroidClaw propose une vision concrète de l’automatisation mobile augmentée par IA: recycler du hardware existant, piloter des apps réelles, et créer des workflows adaptatifs là où les scripts statiques atteignent vite leurs limites.

En savoir plus sur Clement MONDARY
Subscribe to get the latest posts sent to your email.
