skyvern/forge/sdk/api/llm/models.py

from dataclasses import dataclass, field
from typing import Any, Literal, Optional, TypedDict

from skyvern.forge.sdk.settings_manager import SettingsManager


class LiteLLMParams(TypedDict, total=False):
    api_key: str | None
    api_version: str | None
    api_base: str | None
    model_info: dict[str, Any] | None
    vertex_credentials: str | None
    vertex_location: str | None
    thinking: dict[str, Any] | None
    thinking_level: str | None
    service_tier: str | None
    timeout: float | None


@dataclass(frozen=True)
class LLMConfigBase:
    model_name: str
    required_env_vars: list[str]
    supports_vision: bool
    add_assistant_prefix: bool

    def get_missing_env_vars(self) -> list[str]:
        missing_env_vars = []
        for env_var in self.required_env_vars:
            env_var_value = getattr(SettingsManager.get_settings(), env_var, None)
            if not env_var_value:
                missing_env_vars.append(env_var)

        return missing_env_vars


@dataclass(frozen=True)
class LLMConfig(LLMConfigBase):
    litellm_params: Optional[LiteLLMParams] = field(default=None)
    max_tokens: int | None = SettingsManager.get_settings().LLM_CONFIG_MAX_TOKENS
    max_completion_tokens: int | None = None
    temperature: float | None = SettingsManager.get_settings().LLM_CONFIG_TEMPERATURE
    reasoning_effort: str | None = None


@dataclass(frozen=True)
class LLMAllowedFailsPolicy:
    bad_request_error_allowed_fails: int | None = None
    authentication_error_allowed_fails: int | None = None
    timeout_error_allowed_fails: int | None = None
    rate_limit_error_allowed_fails: int | None = None
    content_policy_violation_error_allowed_fails: int | None = None
    internal_server_error_allowed_fails: int | None = None


@dataclass(frozen=True)
class LLMRouterModelConfig:
    model_name: str
    # https://litellm.vercel.app/docs/routing
    litellm_params: dict[str, Any]
    model_info: dict[str, Any] = field(default_factory=dict)
    tpm: int | None = None
    rpm: int | None = None


@dataclass(frozen=True)
class LLMRouterConfig(LLMConfigBase):
    model_list: list[LLMRouterModelConfig]
    # All three redis parameters are required. Even if there isn't a password, it should be an empty string.
    main_model_group: str
    redis_host: str | None = None
    redis_port: int | None = None
    redis_password: str | None = None
    fallback_model_group: str | None = None
    routing_strategy: Literal[
        "simple-shuffle",
        "least-busy",
        "usage-based-routing",
        "usage-based-routing-v2",
        "latency-based-routing",
    ] = "usage-based-routing"
    num_retries: int = 1
    retry_delay_seconds: int = 15
    set_verbose: bool = False
    disable_cooldowns: bool | None = None
    allowed_fails: int | None = None
    allowed_fails_policy: LLMAllowedFailsPolicy | None = None
    cooldown_time: float | None = None
    max_tokens: int | None = SettingsManager.get_settings().LLM_CONFIG_MAX_TOKENS
    max_completion_tokens: int | None = None
    reasoning_effort: str | None = None
    temperature: float | None = SettingsManager.get_settings().LLM_CONFIG_TEMPERATURE
clean up gpt4 routers. add model_info base_model for azure gpt router (#620) 2024-07-18 15:37:20 -07:00			`from dataclasses import dataclass, field`
Move LLMAPIHandler to its own file (#4216) 2025-12-05 16:36:59 -07:00			`from typing import Any, Literal, Optional, TypedDict`
Implement LLM router (#95) 2024-03-16 23:13:18 -07:00
			`from skyvern.forge.sdk.settings_manager import SettingsManager`


fix LiteLLMParams typing (#2285) 2025-05-04 01:02:01 -07:00			`class LiteLLMParams(TypedDict, total=False):`
add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00			`api_key: str \| None`
			`api_version: str \| None`
			`api_base: str \| None`
fix LiteLLMParams (#958) 2024-10-10 23:24:27 -07:00			`model_info: dict[str, Any] \| None`
fix LiteLLMParams typing (#2285) 2025-05-04 01:02:01 -07:00			`vertex_credentials: str \| None`
use vertex global region (#2326) 2025-05-11 19:28:10 -07:00			`vertex_location: str \| None`
refactor gemini reasoning effor (#3292) 2025-08-25 23:42:42 +08:00			`thinking: dict[str, Any] \| None`
Pedro/add gemini 3 flash (#4323) 2025-12-17 20:52:29 -08:00			`thinking_level: str \| None`
add magnifex openai flex config (#4106) 2025-11-26 11:21:38 -08:00			`service_tier: str \| None`
Fix openai flex usage (#4141) Co-authored-by: Suchintan Singh <suchintan@skyvern.com> 2025-11-28 21:15:38 -08:00			`timeout: float \| None`
add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00

Implement LLM router (#95) 2024-03-16 23:13:18 -07:00			`@dataclass(frozen=True)`
add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00			`class LLMConfigBase:`
Implement LLM router (#95) 2024-03-16 23:13:18 -07:00			`model_name: str`
			`required_env_vars: list[str]`
			`supports_vision: bool`
Force Claude 3 models to output JSON object and parse it more reliably (#293) Co-authored-by: otmane <otmanebenazzou.pro@gmail.com> 2024-05-10 00:51:12 -07:00			`add_assistant_prefix: bool`
Implement LLM router (#95) 2024-03-16 23:13:18 -07:00
			`def get_missing_env_vars(self) -> list[str]:`
			`missing_env_vars = []`
			`for env_var in self.required_env_vars:`
			`env_var_value = getattr(SettingsManager.get_settings(), env_var, None)`
			`if not env_var_value:`
			`missing_env_vars.append(env_var)`

			`return missing_env_vars`


add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00			`@dataclass(frozen=True)`
			`class LLMConfig(LLMConfigBase):`
			`litellm_params: Optional[LiteLLMParams] = field(default=None)`
add support back for old gpt versions by supporting `max_tokens` (#1860) 2025-03-02 00:16:00 -05:00			`max_tokens: int \| None = SettingsManager.get_settings().LLM_CONFIG_MAX_TOKENS`
			`max_completion_tokens: int \| None = None`
O3 Mini support (#1709) 2025-02-04 05:07:10 +08:00			`temperature: float \| None = SettingsManager.get_settings().LLM_CONFIG_TEMPERATURE`
			`reasoning_effort: str \| None = None`
add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00

SDK: fix import time regression (#4208) 2025-12-05 08:52:59 -07:00			`@dataclass(frozen=True)`
			`class LLMAllowedFailsPolicy:`
			`bad_request_error_allowed_fails: int \| None = None`
			`authentication_error_allowed_fails: int \| None = None`
			`timeout_error_allowed_fails: int \| None = None`
			`rate_limit_error_allowed_fails: int \| None = None`
			`content_policy_violation_error_allowed_fails: int \| None = None`
			`internal_server_error_allowed_fails: int \| None = None`


Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`@dataclass(frozen=True)`
			`class LLMRouterModelConfig:`
			`model_name: str`
			`# https://litellm.vercel.app/docs/routing`
			`litellm_params: dict[str, Any]`
clean up gpt4 routers. add model_info base_model for azure gpt router (#620) 2024-07-18 15:37:20 -07:00			`model_info: dict[str, Any] = field(default_factory=dict)`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`tpm: int \| None = None`
			`rpm: int \| None = None`


			`@dataclass(frozen=True)`
add gpt4o mini support (#666) 2024-08-02 19:35:52 +08:00			`class LLMRouterConfig(LLMConfigBase):`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`model_list: list[LLMRouterModelConfig]`
Ykeremy/fix router pass empty redis password (#143) 2024-04-01 16:28:46 -07:00			`# All three redis parameters are required. Even if there isn't a password, it should be an empty string.`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`main_model_group: str`
llm router for gpt4 turbo (#237) 2024-04-25 01:32:22 -07:00			`redis_host: str \| None = None`
			`redis_port: int \| None = None`
			`redis_password: str \| None = None`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`fallback_model_group: str \| None = None`
			`routing_strategy: Literal[`
			`"simple-shuffle",`
			`"least-busy",`
			`"usage-based-routing",`
Ykeremy/test new litellm version (#223) 2024-04-23 23:48:35 -07:00			`"usage-based-routing-v2",`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`"latency-based-routing",`
Ykeremy/revert litellm upgrade (#204) 2024-04-17 11:51:14 -07:00			`] = "usage-based-routing"`
Integrate posthog feature flags + setup Claude 3 experiment (#251) 2024-05-02 15:06:21 -07:00			`num_retries: int = 1`
Implement LLMRouter (#127) 2024-03-27 14:44:25 -07:00			`retry_delay_seconds: int = 15`
Ykeremy/fix router pass empty redis password (#143) 2024-04-01 16:28:46 -07:00			`set_verbose: bool = False`
litellm cooldown config (#711) 2024-08-19 16:49:26 +08:00			`disable_cooldowns: bool \| None = None`
			`allowed_fails: int \| None = None`
SDK: fix import time regression (#4208) 2025-12-05 08:52:59 -07:00			`allowed_fails_policy: LLMAllowedFailsPolicy \| None = None`
litellm cooldown config (#711) 2024-08-19 16:49:26 +08:00			`cooldown_time: float \| None = None`
add support back for old gpt versions by supporting `max_tokens` (#1860) 2025-03-02 00:16:00 -05:00			`max_tokens: int \| None = SettingsManager.get_settings().LLM_CONFIG_MAX_TOKENS`
			`max_completion_tokens: int \| None = None`
O3 Mini support (#1709) 2025-02-04 05:07:10 +08:00			`reasoning_effort: str \| None = None`
			`temperature: float \| None = SettingsManager.get_settings().LLM_CONFIG_TEMPERATURE`