Skyvern SDK Prototype (#3624)

2025-10-17 13:15:24 -06:00
parent 770ddadc2f
commit fb24641212
9 changed files with 648 additions and 3 deletions
--- a/skyvern/client/client.py
+++ b/skyvern/client/client.py
@@ -1959,6 +1959,7 @@ class AsyncSkyvern:
        totp_identifier: typing.Optional[str] = OMIT,
        totp_url: typing.Optional[str] = OMIT,
        browser_session_id: typing.Optional[str] = OMIT,
        browser_address: typing.Optional[str] = OMIT,
        model: typing.Optional[typing.Dict[str, typing.Optional[typing.Any]]] = OMIT,
        extra_http_headers: typing.Optional[typing.Dict[str, typing.Optional[str]]] = OMIT,
        publish_workflow: typing.Optional[bool] = OMIT,
@@ -2041,6 +2042,9 @@ class AsyncSkyvern:
            Run the task or workflow in the specific Skyvern browser session. Having a browser session can persist the real-time state of the browser, so that the next run can continue from where the previous run left off.
        browser_address : typing.Optional[str]
            The CDP address for the task
        model : typing.Optional[typing.Dict[str, typing.Optional[typing.Any]]]
            Optional model configuration.
@@ -2103,6 +2107,7 @@ class AsyncSkyvern:
                "totp_identifier": totp_identifier,
                "totp_url": totp_url,
                "browser_session_id": browser_session_id,
                "browser_address": browser_address,
                "model": model,
                "extra_http_headers": extra_http_headers,
                "publish_workflow": publish_workflow,
@@ -2163,6 +2168,7 @@ class AsyncSkyvern:
        totp_url: typing.Optional[str] = OMIT,
        totp_identifier: typing.Optional[str] = OMIT,
        browser_session_id: typing.Optional[str] = OMIT,
        browser_address: typing.Optional[str] = OMIT,
        max_screenshot_scrolls: typing.Optional[int] = OMIT,
        extra_http_headers: typing.Optional[typing.Dict[str, typing.Optional[str]]] = OMIT,
        request_options: typing.Optional[RequestOptions] = None,
@@ -2226,6 +2232,9 @@ class AsyncSkyvern:
        browser_session_id : typing.Optional[str]
            ID of a Skyvern browser session to reuse, having it continue from the current screen state
        browser_address : typing.Optional[str]
            The CDP address for the workflow
        max_screenshot_scrolls : typing.Optional[int]
            The maximum number of scrolls for the post action screenshot. When it's None or 0, it takes the current viewpoint screenshot.
@@ -2275,6 +2284,7 @@ class AsyncSkyvern:
                "totp_url": totp_url,
                "totp_identifier": totp_identifier,
                "browser_session_id": browser_session_id,
                "browser_address": browser_address,
                "max_screenshot_scrolls": max_screenshot_scrolls,
                "extra_http_headers": extra_http_headers,
            },
@@ -3757,6 +3767,7 @@ class AsyncSkyvern:
        totp_identifier: typing.Optional[str] = OMIT,
        totp_url: typing.Optional[str] = OMIT,
        browser_session_id: typing.Optional[str] = OMIT,
        browser_address: typing.Optional[str] = OMIT,
        extra_http_headers: typing.Optional[typing.Dict[str, typing.Optional[str]]] = OMIT,
        max_screenshot_scrolling_times: typing.Optional[int] = OMIT,
        credential_id: typing.Optional[str] = OMIT,
@@ -3795,6 +3806,9 @@ class AsyncSkyvern:
        browser_session_id : typing.Optional[str]
            ID of the browser session to use, which is prefixed by `pbs_` e.g. `pbs_123456`
        browser_address : typing.Optional[str]
            The CDP address for the task
        extra_http_headers : typing.Optional[typing.Dict[str, typing.Optional[str]]]
            Additional HTTP headers to include in requests
@@ -3856,6 +3870,7 @@ class AsyncSkyvern:
                "totp_identifier": totp_identifier,
                "totp_url": totp_url,
                "browser_session_id": browser_session_id,
                "browser_address": browser_address,
                "extra_http_headers": extra_http_headers,
                "max_screenshot_scrolling_times": max_screenshot_scrolling_times,
                "credential_id": credential_id,
--- a/skyvern/client/environment.py
+++ b/skyvern/client/environment.py
@@ -6,4 +6,4 @@ import enum
 class SkyvernEnvironment(enum.Enum):
    PRODUCTION = "https://api.skyvern.com"
    STAGING = "https://api-staging.skyvern.com"
-    DEVELOPMENT = "http://localhost:8000"
+    LOCAL = "http://localhost:8000"
--- a/skyvern/forge/sdk/routes/run_blocks.py
+++ b/skyvern/forge/sdk/routes/run_blocks.py
@@ -194,6 +194,7 @@ async def login(
        totp_identifier=login_request.totp_identifier,
        totp_verification_url=login_request.totp_url,
        browser_session_id=login_request.browser_session_id,
        browser_address=login_request.browser_address,
        max_screenshot_scrolls=login_request.max_screenshot_scrolling_times,
        extra_http_headers=login_request.extra_http_headers,
    )
--- a/skyvern/library/constants.py
+++ b/skyvern/library/constants.py
@@ -1,2 +1,3 @@
 DEFAULT_AGENT_TIMEOUT = 1800  # 30 minutes
 DEFAULT_AGENT_HEARTBEAT_INTERVAL = 10  # 10 seconds
 DEFAULT_CDP_PORT = 9222
--- a/skyvern/library/skyvern_browser.py
+++ b/skyvern/library/skyvern_browser.py
@@ -0,0 +1,77 @@
 from playwright.async_api import BrowserContext, Page
 from skyvern.client import AsyncSkyvern
 from skyvern.library.skyvern_browser_page import SkyvernBrowserPage, SkyvernPageRun
 class SkyvernBrowser:
    """A browser context wrapper that creates Skyvern-enabled pages.
    This class wraps a Playwright BrowserContext and provides methods to create
    SkyvernBrowserPage instances that combine traditional browser automation with
    AI-powered task execution capabilities. It manages browser session state and
    enables persistent browser sessions across multiple pages.
    Example:
        ```python
            sdk = SkyvernSdk()
            browser = await sdk.launch_local_browser()
            # Get or create the working page
            page = await browser.get_working_page()
            # Create a new page
            new_page = await browser.new_page()
        ```
    Attributes:
        _browser_context: The underlying Playwright BrowserContext.
        _browser_session_id: Optional session ID for persistent browser sessions.
        _browser_address: Optional address for remote browser connections.
        _client: The AsyncSkyvern client for API communication.
    """
    def __init__(
        self,
        browser_context: BrowserContext,
        client: AsyncSkyvern,
        *,
        browser_session_id: str | None = None,
        browser_address: str | None = None,
    ):
        self._browser_context = browser_context
        self._browser_session_id = browser_session_id
        self._browser_address = browser_address
        self._client = client
    async def get_working_page(self) -> SkyvernBrowserPage:
        """Get the most recent page or create a new one if none exists.
        This method returns the last page in the browser context, or creates a new page
        if the context has no pages. This is useful for continuing work on an existing
        page without creating unnecessary new tabs.
        Returns:
            SkyvernBrowserPage: The most recent page wrapped with Skyvern capabilities.
        """
        if self._browser_context.pages:
            page = self._browser_context.pages[-1]
        else:
            page = await self._browser_context.new_page()
        return await self._create_skyvern_page(page)
    async def new_page(self) -> SkyvernBrowserPage:
        """Create a new page (tab) in the browser context.
        This method always creates a new page, similar to opening a new tab in a browser.
        The new page will have both Playwright's standard API and Skyvern's AI capabilities.
        Returns:
            SkyvernBrowserPage: A new page wrapped with Skyvern capabilities.
        """
        page = await self._browser_context.new_page()
        return await self._create_skyvern_page(page)
    async def _create_skyvern_page(self, page: Page) -> SkyvernBrowserPage:
        page_ai = SkyvernPageRun(page, self._browser_session_id, self._browser_address, self._client)
        return SkyvernBrowserPage(page, page_ai)
--- a/skyvern/library/skyvern_browser_page.py
+++ b/skyvern/library/skyvern_browser_page.py
@@ -0,0 +1,296 @@
 import asyncio
 from typing import Any
 from playwright.async_api import Page
 from skyvern.client import AsyncSkyvern, GetRunResponse
 from skyvern.client.types.workflow_run_response import WorkflowRunResponse
 from skyvern.library.constants import DEFAULT_AGENT_HEARTBEAT_INTERVAL, DEFAULT_AGENT_TIMEOUT
 from skyvern.schemas.run_blocks import CredentialType
 from skyvern.schemas.runs import RunEngine, RunStatus, TaskRunResponse
 class SkyvernPageRun:
    """Provides methods to run Skyvern tasks and workflows in the context of a browser page.
    This class enables executing AI-powered browser automation tasks while sharing the
    context of an existing browser page. It supports running custom tasks, login workflows,
    and pre-defined workflows with automatic waiting for completion.
    """
    def __init__(
        self, page: Page, browser_session_id: str | None, browser_address: str | None, client: AsyncSkyvern
    ) -> None:
        self._page = page
        self._browser_session_id = browser_session_id
        self._browser_address = browser_address
        self._client = client
    async def run_task(
        self,
        prompt: str,
        engine: RunEngine = RunEngine.skyvern_v2,
        model: dict[str, Any] | None = None,
        url: str | None = None,
        webhook_url: str | None = None,
        totp_identifier: str | None = None,
        totp_url: str | None = None,
        title: str | None = None,
        error_code_mapping: dict[str, str] | None = None,
        data_extraction_schema: dict[str, Any] | str | None = None,
        max_steps: int | None = None,
        timeout: float = DEFAULT_AGENT_TIMEOUT,
        user_agent: str | None = None,
    ) -> TaskRunResponse:
        """Run a task in the context of this page and wait for it to finish.
        Args:
            prompt: Natural language description of the task to perform.
            engine: The execution engine to use. Defaults to skyvern_v2.
            model: LLM model configuration options.
            url: URL to navigate to. If not provided, uses the current page URL.
            webhook_url: URL to receive webhook notifications about task progress.
            totp_identifier: Identifier for TOTP (Time-based One-Time Password) authentication.
            totp_url: URL to fetch TOTP codes from.
            title: Human-readable title for this task run.
            error_code_mapping: Mapping of error codes to custom error messages.
            data_extraction_schema: Schema defining what data to extract from the page.
            max_steps: Maximum number of steps the agent can take.
            timeout: Maximum time in seconds to wait for task completion.
            user_agent: Custom user agent string to use.
        Returns:
            TaskRunResponse containing the task execution results.
        """
        task_run = await self._client.run_task(
            prompt=prompt,
            engine=engine,
            model=model,
            url=url or self._get_page_url(),
            webhook_url=webhook_url,
            totp_identifier=totp_identifier,
            totp_url=totp_url,
            title=title,
            error_code_mapping=error_code_mapping,
            data_extraction_schema=data_extraction_schema,
            max_steps=max_steps,
            browser_session_id=self._browser_session_id,
            browser_address=self._browser_address,
            user_agent=user_agent,
        )
        task_run = await self._wait_for_run_completion(task_run.run_id, timeout)
        return TaskRunResponse.model_validate(task_run.model_dump())
    async def login(
        self,
        credential_type: CredentialType,
        *,
        url: str | None = None,
        credential_id: str | None = None,
        bitwarden_collection_id: str | None = None,
        bitwarden_item_id: str | None = None,
        onepassword_vault_id: str | None = None,
        onepassword_item_id: str | None = None,
        prompt: str | None = None,
        webhook_url: str | None = None,
        totp_identifier: str | None = None,
        totp_url: str | None = None,
        extra_http_headers: dict[str, str] | None = None,
        timeout: float = DEFAULT_AGENT_TIMEOUT,
    ) -> WorkflowRunResponse:
        """Run a login task in the context of this page and wait for it to finish.
        Args:
            credential_type: Type of credential store to use (e.g., bitwarden, onepassword).
            url: URL to navigate to for login. If not provided, uses the current page URL.
            credential_id: ID of the credential to use.
            bitwarden_collection_id: Bitwarden collection ID containing the credentials.
            bitwarden_item_id: Bitwarden item ID for the credentials.
            onepassword_vault_id: 1Password vault ID containing the credentials.
            onepassword_item_id: 1Password item ID for the credentials.
            prompt: Additional instructions for the login process.
            webhook_url: URL to receive webhook notifications about login progress.
            totp_identifier: Identifier for TOTP authentication.
            totp_url: URL to fetch TOTP codes from.
            extra_http_headers: Additional HTTP headers to include in requests.
            timeout: Maximum time in seconds to wait for login completion.
        Returns:
            WorkflowRunResponse containing the login workflow execution results.
        """
        workflow_run = await self._client.login(
            credential_type=credential_type,
            url=url or self._get_page_url(),
            credential_id=credential_id,
            bitwarden_collection_id=bitwarden_collection_id,
            bitwarden_item_id=bitwarden_item_id,
            onepassword_vault_id=onepassword_vault_id,
            onepassword_item_id=onepassword_item_id,
            prompt=prompt,
            webhook_url=webhook_url,
            totp_identifier=totp_identifier,
            totp_url=totp_url,
            browser_session_id=self._browser_session_id,
            browser_address=self._browser_address,
            extra_http_headers=extra_http_headers,
        )
        workflow_run = await self._wait_for_run_completion(workflow_run.run_id, timeout)
        return WorkflowRunResponse.model_validate(workflow_run.model_dump())
    async def run_workflow(
        self,
        workflow_id: str,
        parameters: dict[str, Any] | None = None,
        template: bool | None = None,
        title: str | None = None,
        webhook_url: str | None = None,
        totp_url: str | None = None,
        totp_identifier: str | None = None,
        timeout: float = DEFAULT_AGENT_TIMEOUT,
    ) -> WorkflowRunResponse:
        """Run a workflow in the context of this page and wait for it to finish.
        Args:
            workflow_id: ID of the workflow to execute.
            parameters: Dictionary of parameters to pass to the workflow.
            template: Whether this is a workflow template.
            title: Human-readable title for this workflow run.
            webhook_url: URL to receive webhook notifications about workflow progress.
            totp_url: URL to fetch TOTP codes from.
            totp_identifier: Identifier for TOTP authentication.
            timeout: Maximum time in seconds to wait for workflow completion.
        Returns:
            WorkflowRunResponse containing the workflow execution results.
        """
        workflow_run = await self._client.run_workflow(
            workflow_id=workflow_id,
            parameters=parameters,
            template=template,
            title=title,
            webhook_url=webhook_url,
            totp_url=totp_url,
            totp_identifier=totp_identifier,
            browser_session_id=self._browser_session_id,
            browser_address=self._browser_address,
        )
        workflow_run = await self._wait_for_run_completion(workflow_run.run_id, timeout)
        return WorkflowRunResponse.model_validate(workflow_run.model_dump())
    async def _wait_for_run_completion(self, run_id: str, timeout: float) -> GetRunResponse:
        async with asyncio.timeout(timeout):
            while True:
                task_run = await self._client.get_run(run_id)
                if RunStatus(task_run.status).is_final():
                    break
                await asyncio.sleep(DEFAULT_AGENT_HEARTBEAT_INTERVAL)
        return task_run
    def _get_page_url(self) -> str | None:
        url = self._page.url
        if url == "about:blank":
            return None
        return url
 class SkyvernBrowserPage:
    """A browser page wrapper that combines Playwright's page API with Skyvern's AI capabilities.
    This class provides a unified interface for both traditional browser automation (via Playwright)
    and AI-powered task execution (via Skyvern). It exposes standard page methods like click, fill,
    goto, etc., while also providing access to Skyvern's task and workflow execution through the
    `run` attribute.
    Example:
        ```python
        # Use standard Playwright methods
        await page.goto("https://example.com")
        await page.fill("#username", "user@example.com")
        await page.click("#login-button")
        # Or use Skyvern's AI capabilities
        await page.run.run_task("Fill out the contact form and submit it")
        ```
    Attributes:
        run: SkyvernPageRun instance for executing AI-powered tasks and workflows.
    """
    def __init__(self, page: Page, run: SkyvernPageRun):
        self.run = run
        self._playwright_page = page
    async def click(self, selector: str, **kwargs: Any) -> None:
        """Click an element matching the selector.
        Args:
            selector: A selector to search for an element to click.
            **kwargs: Additional options like timeout, force, position, etc.
        """
        await self._playwright_page.click(selector, **kwargs)
    async def fill(self, selector: str, value: str, **kwargs: Any) -> None:
        """Fill an input field with the given value.
        Args:
            selector: A selector to search for an element to fill.
            value: Value to fill for the input field.
            **kwargs: Additional options like timeout, force, no_wait_after, etc.
        """
        await self._playwright_page.fill(selector, value, **kwargs)
    async def goto(self, url: str, **kwargs: Any) -> None:
        """Navigate to the given URL.
        Args:
            url: URL to navigate page to.
            **kwargs: Additional options like timeout, wait_until, referer, etc.
        """
        await self._playwright_page.goto(url, **kwargs)
    async def type(self, selector: str, text: str, **kwargs: Any) -> None:
        """Type text into an element character by character.
        Args:
            selector: A selector to search for an element to type into.
            text: Text to type into the element.
            **kwargs: Additional options like delay, timeout, no_wait_after, etc.
        """
        await self._playwright_page.type(selector, text, **kwargs)
    async def select_option(self, selector: str, value: Any = None, **kwargs: Any) -> list[str]:
        """Select option(s) in a <select> element.
        Args:
            selector: A selector to search for a select element.
            value: Option value(s) to select. Can be a string, list of strings, or dict with value/label/index.
            **kwargs: Additional options like timeout, force, no_wait_after, etc.
        Returns:
            List of option values that have been successfully selected.
        """
        return await self._playwright_page.select_option(selector, value, **kwargs)
    async def reload(self, **kwargs: Any) -> None:
        """Reload the current page.
        Args:
            **kwargs: Additional options like timeout, wait_until, etc.
        """
        await self._playwright_page.reload(**kwargs)
    async def screenshot(self, **kwargs: Any) -> bytes:
        """Take a screenshot of the page.
        Args:
            **kwargs: Additional options like path, full_page, clip, type, quality, etc.
        Returns:
            bytes: The screenshot as bytes (unless path is specified, then saves to file).
        """
        return await self._playwright_page.screenshot(**kwargs)
--- a/skyvern/library/skyvern_sdk.py
+++ b/skyvern/library/skyvern_sdk.py
@@ -0,0 +1,222 @@
 import os
 import httpx
 from dotenv import load_dotenv
 from playwright.async_api import Playwright, async_playwright
 from skyvern.client import AsyncSkyvern, BrowserSessionResponse, SkyvernEnvironment
 from skyvern.library.constants import DEFAULT_CDP_PORT
 from skyvern.library.skyvern_browser import SkyvernBrowser
 class SkyvernSdk:
    """Main entry point for the Skyvern SDK.
    This class provides methods to launch and connect to browsers (both local and cloud-hosted),
    and access the Skyvern API client for task and workflow management. It combines browser
    automation capabilities with AI-powered task execution.
    Example:
        ```python
        # Initialize with environment and API key
        skyvern = SkyvernSdk(environment=SkyvernEnvironment.PRODUCTION, api_key="your-api-key")
        # Launch a local browser
        browser = await skyvern.launch_local_browser(headless=False)
        page = await browser.get_working_page()
        # Or use a cloud browser
        browser = await skyvern.use_cloud_browser()
        page = await browser.get_working_page()
        # Execute AI-powered tasks
        await page.run.run_task("Fill out the form and submit it")
        ```
    You can also mix AI-powered tasks with direct browser control in the same session:
        ```python
        # Create credentials via API
        credential = await skyvern.api.create_credential(
            name="my_user",
            credential_type="password",
            credential=NonEmptyPasswordCredential(username="user@example.com",password="secure_password"),
        )
        # Get a browser page
        browser = await skyvern.launch_cloud_browser()
        page = await browser.get_working_page()
        # Navigate manually
        await page.goto("https://example.com")
        # Use AI to handle login
        await page.run.login(
            credential_type=CredentialType.skyvern,
            credential_id=credential.credential_id,
        )
        # Continue with manual browser control
        await page.click("#invoices-button")
        await page.fill("#search", "my invoice")
        await page.screenshot(path="screenshot.png", full_page=True)
        ```
    """
    def __init__(
        self,
        *,
        environment: SkyvernEnvironment = SkyvernEnvironment.LOCAL,
        base_url: str | None = None,
        api_key: str | None = None,
        timeout: float | None = None,
        follow_redirects: bool | None = True,
        httpx_client: httpx.AsyncClient | None = None,
    ):
        """Initialize the Skyvern SDK client.
        Args:
            environment: The Skyvern environment to connect to (LOCAL or PRODUCTION).
            base_url: Custom base URL for the Skyvern API. Overrides environment setting.
            api_key: Skyvern API key. If not provided, loads from SKYVERN_API_KEY environment variable.
            timeout: HTTP request timeout in seconds.
            follow_redirects: Whether to follow HTTP redirects. Defaults to True.
            httpx_client: Custom httpx.AsyncClient instance for HTTP requests.
        Raises:
            Exception: If no API key is provided and no .env file exists.
        """
        if api_key is None:
            if os.path.exists(".env"):
                load_dotenv(".env")
            env_key = os.getenv("SKYVERN_API_KEY")
            if not env_key:
                raise ValueError(
                    "SKYVERN_API_KEY is not set. Provide api_key or set SKYVERN_API_KEY in environment/.env."
                )
            self._api_key = env_key
        else:
            self._api_key = api_key
        self._api = AsyncSkyvern(
            environment=environment,
            base_url=base_url,
            api_key=self._api_key,
            x_api_key=self._api_key,
            timeout=timeout,
            follow_redirects=follow_redirects,
            httpx_client=httpx_client,
        )
        self._playwright: Playwright | None = None
    @property
    def api(self) -> AsyncSkyvern:
        """Get the AsyncSkyvern API client for direct API access."""
        return self._api
    async def launch_local_browser(self, *, headless: bool = False, port: int = DEFAULT_CDP_PORT) -> SkyvernBrowser:
        """Launch a new local Chromium browser with Chrome DevTools Protocol (CDP) enabled.
        This method launches a browser on your local machine with remote debugging enabled,
        allowing Skyvern to control it via CDP. Useful for development and debugging.
        Args:
            headless: Whether to run the browser in headless mode. Defaults to False.
            port: The port number for the CDP endpoint. Defaults to DEFAULT_CDP_PORT.
        Returns:
            SkyvernBrowser: A browser instance with Skyvern capabilities.
        """
        playwright = await self._get_playwright()
        browser = await playwright.chromium.launch(
            headless=headless,
            args=[f"--remote-debugging-port={port}"],
        )
        browser_address = f"http://localhost:{port}"
        browser_context = browser.contexts[0] if browser.contexts else await browser.new_context()
        return SkyvernBrowser(browser_context, self._api, browser_address=browser_address)
    async def connect_to_browser_over_cdp(self, cdp_url: str) -> SkyvernBrowser:
        """Connect to an existing browser instance via Chrome DevTools Protocol (CDP).
        Use this to connect to a browser that's already running with CDP enabled,
        whether local or remote.
        Args:
            cdp_url: The CDP WebSocket URL (e.g., "http://localhost:9222").
        Returns:
            SkyvernBrowser: A browser instance connected to the existing browser.
        """
        playwright = await self._get_playwright()
        browser = await playwright.chromium.connect_over_cdp(cdp_url)
        browser_context = browser.contexts[0] if browser.contexts else await browser.new_context()
        return SkyvernBrowser(browser_context, self._api, browser_address=cdp_url)
    async def connect_to_cloud_browser_session(self, browser_session_id: str) -> SkyvernBrowser:
        """Connect to an existing cloud-hosted browser session by ID.
        Args:
            browser_session_id: The ID of the cloud browser session to connect to.
        Returns:
            SkyvernBrowser: A browser instance connected to the cloud session.
        """
        browser_session = await self._api.get_browser_session(browser_session_id)
        return await self._connect_to_cloud_browser_session(browser_session)
    async def launch_cloud_browser(self) -> SkyvernBrowser:
        """Launch a new cloud-hosted browser session.
        This creates a new browser session in Skyvern's cloud infrastructure and connects to it.
        Returns:
            SkyvernBrowser: A browser instance connected to the new cloud session.
        """
        browser_session = await self._api.create_browser_session()
        return await self._connect_to_cloud_browser_session(browser_session)
    async def use_cloud_browser(self) -> SkyvernBrowser:
        """Get or create a cloud browser session.
        This method attempts to reuse the most recent available cloud browser session.
        If no session exists, it creates a new one. This is useful for cost efficiency
        and session persistence.
        Returns:
            SkyvernBrowser: A browser instance connected to an existing or new cloud session.
        """
        browser_sessions = await self._api.get_browser_sessions()
        browser_session = max(
            (s for s in browser_sessions if s.runnable_id is None), key=lambda s: s.started_at, default=None
        )
        if browser_session is None:
            browser_session = await self._api.create_browser_session()
        return await self._connect_to_cloud_browser_session(browser_session)
    async def _connect_to_cloud_browser_session(self, browser_session: BrowserSessionResponse) -> SkyvernBrowser:
        if browser_session.browser_address is None:
            raise Exception(f"Browser address is missing for session {browser_session.browser_session_id}")
        playwright = await self._get_playwright()
        browser = await playwright.chromium.connect_over_cdp(
            browser_session.browser_address, headers={"x-api-key": self._api_key}
        )
        browser_context = browser.contexts[0] if browser.contexts else await browser.new_context()
        return SkyvernBrowser(browser_context, self._api, browser_session_id=browser_session.browser_session_id)
    async def _get_playwright(self) -> Playwright:
        if self._playwright is None:
            self._playwright = await async_playwright().start()
        return self._playwright
    async def aclose(self) -> None:
        """Close Playwright and release resources."""
        if self._playwright is not None:
            try:
                await self._playwright.stop()
            finally:
                self._playwright = None
--- a/skyvern/schemas/run_blocks.py
+++ b/skyvern/schemas/run_blocks.py
@@ -30,6 +30,11 @@ class LoginRequest(BaseModel):
        description="ID of the browser session to use, which is prefixed by `pbs_` e.g. `pbs_123456`",
        examples=["pbs_123456"],
    )
    browser_address: str | None = Field(
        default=None,
        description="The CDP address for the task.",
        examples=["http://127.0.0.1:9222", "ws://127.0.0.1:9222/devtools/browser/1234567890"],
    )
    extra_http_headers: dict[str, str] | None = Field(
        default=None, description="Additional HTTP headers to include in requests"
    )
--- a/skyvern/webeye/browser_factory.py
+++ b/skyvern/webeye/browser_factory.py
@@ -419,6 +419,13 @@ async def _create_headless_chromium(
    extra_http_headers: dict[str, str] | None = None,
    **kwargs: dict,
 ) -> tuple[BrowserContext, BrowserArtifacts, BrowserCleanupFunc]:
    if browser_address := kwargs.get("browser_address"):
        return await _connect_to_cdp_browser(
            playwright,
            remote_browser_url=str(browser_address),
            extra_http_headers=extra_http_headers,
        )
    user_data_dir = make_temp_directory(prefix="skyvern_browser_")
    download_dir = initialize_download_dir()
    BrowserContextFactory.update_chromium_browser_preferences(
@@ -447,6 +454,13 @@ async def _create_headful_chromium(
    extra_http_headers: dict[str, str] | None = None,
    **kwargs: dict,
 ) -> tuple[BrowserContext, BrowserArtifacts, BrowserCleanupFunc]:
    if browser_address := kwargs.get("browser_address"):
        return await _connect_to_cdp_browser(
            playwright,
            remote_browser_url=str(browser_address),
            extra_http_headers=extra_http_headers,
        )
    user_data_dir = make_temp_directory(prefix="skyvern_browser_")
    download_dir = initialize_download_dir()
    BrowserContextFactory.update_chromium_browser_preferences(
@@ -503,6 +517,13 @@ async def _create_cdp_connection_browser(
    extra_http_headers: dict[str, str] | None = None,
    **kwargs: dict,
 ) -> tuple[BrowserContext, BrowserArtifacts, BrowserCleanupFunc]:
    if browser_address := kwargs.get("browser_address"):
        return await _connect_to_cdp_browser(
            playwright,
            remote_browser_url=str(browser_address),
            extra_http_headers=extra_http_headers,
        )
    browser_type = settings.BROWSER_TYPE
    browser_path = settings.CHROME_EXECUTABLE_PATH
@@ -550,13 +571,20 @@ async def _create_cdp_connection_browser(
        else:
            LOG.info("Port 9222 is in use, using existing browser")
    return await _connect_to_cdp_browser(playwright, settings.BROWSER_REMOTE_DEBUGGING_URL, extra_http_headers)
 async def _connect_to_cdp_browser(
    playwright: Playwright,
    remote_browser_url: str,
    extra_http_headers: dict[str, str] | None = None,
 ) -> tuple[BrowserContext, BrowserArtifacts, BrowserCleanupFunc]:
    browser_args = BrowserContextFactory.build_browser_args(extra_http_headers=extra_http_headers)
    browser_artifacts = BrowserContextFactory.build_browser_artifacts(
        har_path=browser_args["record_har_path"],
    )
    remote_browser_url = settings.BROWSER_REMOTE_DEBUGGING_URL
    LOG.info("Connecting browser CDP connection", remote_browser_url=remote_browser_url)
    browser = await playwright.chromium.connect_over_cdp(remote_browser_url)
@@ -676,7 +704,7 @@ class BrowserState:
            if not use_existing_page:
                await self._close_all_other_pages()
-            if url:
+            if url and page.url.rstrip("/") != url.rstrip("/"):
                await self.navigate_to_url(page=page, url=url)
    async def navigate_to_url(self, page: Page, url: str, retry_times: int = NAVIGATION_MAX_RETRY_TIME) -> None: