AITY Logo
Development

-AUTOMAI-
Orquestração de Interface via
Modelos de Linguagem

Um estudo sobre a implementação de agentes autônomos para manipulação de HID (Human Interface Device) utilizando Python e Google Gemini API.

01. Resumo Executivo

O projeto AUTOMAI propõe uma arquitetura de agente local capaz de traduzir intenções em linguagem natural para comandos de baixo nível de sistema operacional (Windows). Diferente de scripts de automação estáticos, o AUTOMAI utiliza a capacidade de inferência semântica de Grandes Modelos de Linguagem (LLMs), especificamente a API do Google Gemini, para interpretar solicitações complexas do usuário e decidir, em tempo real, a sequência ótima de ações de mouse e teclado. O sistema atua como uma ponte entre a cognição probabilística da IA e a execução determinística via biblioteca PyAutoGUI.

Python 3.11 Google Gemini API PyAutoGUI Computer Vision Windows API

02. Fundamentação Teórica

A automação de tarefas repetitivas em ambientes desktop (Desktop Automation) tradicionalmente depende de seletores rígidos de interface ou coordenadas fixas de tela (X, Y). Esta abordagem apresenta fragilidade estrutural: qualquer alteração na resolução ou no layout da GUI quebra o fluxo de automação.

O AUTOMAI resolve este problema introduzindo um Reasoning Engine (Motor de Raciocínio). Ao receber um comando como "Organize os arquivos da pasta Downloads movendo os PDFs para a pasta Documentos", o sistema não executa um script pré-gravado. Ele:

  • Decomposição de Tarefas: O Gemini quebra o comando em sub-passos lógicos (Listar arquivos -> Identificar extensões -> Mover itens).
  • Tradução para Python: A IA gera ou seleciona funções Python mapeadas que utilizam o os.shutil e pyautogui.
  • Execução Controlada: O agente manipula os periféricos para executar a ação, mantendo o "Human-in-the-loop" para interrupções de emergência.

03. Engenharia do Sistema

Backend & Lógica (Python)

O núcleo da aplicação roda em Python, utilizando bibliotecas nativas para interação com o Kernel do Windows. A segurança é prioritária: o agente opera em um ambiente sandboxed lógico, onde apenas comandos pré-aprovados de I/O são permitidos.

import pyautogui
import google.generativeai as genai

# Configuração de Segurança
pyautogui.FAILSAFE = True
pyautogui.PAUSE = 0.5

Interface Neural (Gemini API)

Utilizamos a janela de contexto do modelo Gemini Pro para injetar o "estado atual" da máquina. O prompt de sistema instrui a IA a agir como um operador de sistema, retornando coordenadas JSON ou blocos de código executáveis para o controlador PyAutoGUI.

04. Aplicações Práticas

Manipulação de Arquivos em Massa

Organização inteligente de diretórios baseada em conteúdo, não apenas em metadados.

Preenchimento de Formulários (Data Entry)

Extração de dados de planilhas e input automatizado em sistemas ERP legados via interface visual.

Ver Código no GitHub

Acesso restrito. Solicite permissão para visualizar o repositório.