Refactor experiments and agent implementation

2024-03-14 22:32:49 +08:00
parent 71ca8fbe1c
commit 44ff027801
8 changed files with 359 additions and 1944 deletions
--- a/run.py
+++ b/run.py
@@ -0,0 +1,218 @@
+"""Script to run end-to-end evaluation on the benchmark.
+Utils and basic architecture credit to https://github.com/web-arena-x/webarena/blob/main/run.py.
+"""
+import argparse
+import datetime
+import json
+import logging
+import os
+import sys
+
+from desktop_env.envs.desktop_env import DesktopEnv
+from mm_agents.agent import PromptAgent
+
+#  Logger Configs {{{ # 
+logger = logging.getLogger()
+logger.setLevel(logging.DEBUG)
+
+datetime_str: str = datetime.datetime.now().strftime("%Y%m%d@%H%M%S")
+
+file_handler = logging.FileHandler(os.path.join("logs", "normal-{:}.log".format(datetime_str)), encoding="utf-8")
+debug_handler = logging.FileHandler(os.path.join("logs", "debug-{:}.log".format(datetime_str)), encoding="utf-8")
+stdout_handler = logging.StreamHandler(sys.stdout)
+sdebug_handler = logging.FileHandler(os.path.join("logs", "sdebug-{:}.log".format(datetime_str)), encoding="utf-8")
+
+file_handler.setLevel(logging.INFO)
+debug_handler.setLevel(logging.DEBUG)
+stdout_handler.setLevel(logging.INFO)
+sdebug_handler.setLevel(logging.DEBUG)
+
+formatter = logging.Formatter(
+    fmt="\x1b[1;33m[%(asctime)s \x1b[31m%(levelname)s \x1b[32m%(module)s/%(lineno)d-%(processName)s\x1b[1;33m] \x1b[0m%(message)s")
+file_handler.setFormatter(formatter)
+debug_handler.setFormatter(formatter)
+stdout_handler.setFormatter(formatter)
+sdebug_handler.setFormatter(formatter)
+
+stdout_handler.addFilter(logging.Filter("desktopenv"))
+sdebug_handler.addFilter(logging.Filter("desktopenv"))
+
+logger.addHandler(file_handler)
+logger.addHandler(debug_handler)
+logger.addHandler(stdout_handler)
+logger.addHandler(sdebug_handler)
+#  }}} Logger Configs # 
+
+logger = logging.getLogger("desktopenv.experiment")
+
+
+def config() -> argparse.Namespace:
+    parser = argparse.ArgumentParser(
+        description="Run end-to-end evaluation on the benchmark"
+    )
+
+    # environment config
+    parser.add_argument("--path_to_vm", type=str,
+                        default=r"C:\Users\tianbaox\Documents\Virtual Machines\Ubuntu\Ubuntu.vmx")
+    parser.add_argument(
+        "--headless", action="store_true", help="Run in headless machine"
+    )
+    parser.add_argument("--action_space", type=str, default="pyautogui", help="Action type")
+    parser.add_argument(
+        "--observation_type",
+        choices=[
+            "screenshot",
+            "a11y_tree",
+            "screenshot_a11y_tree",
+            "som"
+        ],
+        default="a11y_tree",
+        help="Observation type",
+    )
+    parser.add_argument("--screen_width", type=int, default=1920)
+    parser.add_argument("--screen_height", type=int, default=1080)
+    parser.add_argument("--sleep_after_execution", type=float, default=0.0)
+    parser.add_argument("--max_steps", type=int, default=15)
+
+    # agent config
+    parser.add_argument("--max_trajectory_length", type=int, default=3)
+    parser.add_argument("--test_config_base_dir", type=str, default="evaluation_examples")
+
+    # lm config
+    parser.add_argument("--model", type=str, default="gpt-4-vision-preview")
+    parser.add_argument("--temperature", type=float, default=1.0)
+    parser.add_argument("--top_p", type=float, default=0.9)
+    parser.add_argument("--max_tokens", type=int, default=1500)
+    parser.add_argument("--stop_token", type=str, default=None)
+
+    # logging related
+    parser.add_argument("--result_dir", type=str, default="./results")
+    args = parser.parse_args()
+
+    return args
+
+
+def test(
+        args: argparse.Namespace,
+        test_all_meta: dict
+) -> None:
+    scores = []
+    max_steps = args.max_steps
+
+    # log args
+    logger.info("Args: %s", args)
+
+    agent = PromptAgent(
+        model=args.model,
+        max_tokens=args.max_tokens,
+        action_space=args.action_space,
+        observation_type=args.observation_type,
+        max_trajectory_length=args.max_trajectory_length,
+    )
+
+    env = DesktopEnv(
+        path_to_vm=args.path_to_vm,
+        action_space=agent.action_space,
+        screen_size=(args.screen_width, args.screen_height),
+        headless=args.headless,
+    )
+
+    for domain in test_all_meta:
+        for example_id in test_all_meta[domain]:
+            config_file = os.path.join(args.test_config_base_dir, f"examples/{domain}/{example_id}.json")
+            with open(config_file, "r", encoding="utf-8") as f:
+                example = json.load(f)
+
+            logger.info(f"[Domain]: {domain}")
+            logger.info(f"[Example ID]: {example_id}")
+
+            instruction = example["instruction"]
+
+            logger.info(f"[Instruction]: {instruction}")
+
+            example_result_dir = os.path.join(
+                args.result_dir,
+                args.action_space,
+                args.observation_type,
+                args.model,
+                domain,
+                example_id
+            )
+            os.makedirs(example_result_dir, exist_ok=True)
+
+            agent.reset()
+            obs = env.reset(task_config=example)
+            done = False
+            step_idx = 0
+            env.controller.start_recording()
+
+            while not done and step_idx < max_steps:
+                actions = agent.predict(
+                    instruction,
+                    obs
+                )
+
+                for action in actions:
+                    step_idx += 1
+                    # Capture the timestamp before executing the action
+                    action_timestamp = datetime.datetime.now().strftime("%Y%m%d@%H%M%S")
+                    logger.info("Step %d: %s", step_idx + 1, action)
+
+                    observation, reward, done, info = env.step(action, args.sleep_after_execution)
+
+                    logger.info("Reward: %.2f", reward)
+                    logger.info("Done: %s", done)
+                    logger.info("Info: %s", info)
+
+                    # Save screenshot and trajectory information
+                    with open(os.path.join(example_result_dir, f"step_{step_idx + 1}_{action_timestamp}.png"),
+                              "wb") as _f:
+                        with open(observation['screenshot'], "rb") as __f:
+                            screenshot = __f.read()
+                        _f.write(screenshot)
+
+                    with open(os.path.join(example_result_dir, "traj.json"), "a") as f:
+                        f.write(json.dumps({
+                            "step_num": step_idx + 1,
+                            "action_timestamp": action_timestamp,
+                            "action": action,
+                            "reward": reward,
+                            "done": done,
+                            "info": info,
+                            "screenshot_file": f"step_{step_idx + 1}_{action_timestamp}.png"
+                        }))
+                        f.write("\n")
+
+                    if done:
+                        logger.info("The episode is done.")
+                        break
+
+            result = env.evaluate()
+            logger.info("Result: %.2f", result)
+            scores.append(result)
+            env.controller.end_recording(os.path.join(example_result_dir, "recording.mp4"))
+
+    env.close()
+    logger.info(f"Average score: {sum(scores) / len(scores)}")
+
+
+def get_unfinished(test_file_list, result_dir):
+    finished = []
+    for domain in os.listdir(result_dir):
+        for example_id in os.listdir(os.path.join(result_dir, domain)):
+            finished.append(f"{domain}/{example_id}")
+    return [x for x in test_file_list if x not in finished]
+
+
+if __name__ == '__main__':
+    ####### The complete version of the list of examples #######
+    os.environ["TOKENIZERS_PARALLELISM"] = "false"
+    args = config()
+
+    # test_file_list = get_unfinished(args.test, args.result_dir)
+    # logger.info(f"Total {len(test_file_list)} tasks left")
+
+    with open("evaluation_examples/test_all.json", "r", encoding="utf-8") as f:
+        test_all_meta = json.load(f)
+
+    test(args, test_all_meta)