Skip to content

vllm 部署问题 #35

@zhangyu68

Description

@zhangyu68

CUDA_VISIBLE_DEVICES=3 python3 -m vllm.entrypoints.openai.api_server
--served-model-name gelab-zero-4b-preview
--allowed-local-media-path /
--mm-encoder-tp-mode data
--mm_processor_cache_type shm
--mm_processor_kwargs "{"max_pixels":5000000}"
--max-model-len 25480
--chat-template-content-format string
--limit-mm-per-prompt "{"image":10}"
--model /models/stepfun-ai/GELab-Zero-4B-preview/
--port 8533

使用如上的部署配置,vllm==0.12.0 版本,坐标点击不准确,请问能否提供官方的步数脚本?

Step 3 took: 0.89 seconds
Executing command: adb -s NMUC210285 shell input tap 1013.04 84.00000000000001
Step 3/400 done. Action: OrderedDict({'cot': "我看到当前界面是小红书的主页。我的任务是搜索'故宫的旅游攻略'。为了开始搜索,我需要先点击顶部的搜索图标。我观察到屏幕右上角有一个放大镜图标,这是搜索功能的入口。因此,我决定点击这个图标。", 'explain': '我需要点击搜索图标来进入搜索页面,以便输入我的搜索关键词。', 'action': 'CLICK', 'point': [938, 35], 'summary': "任务目标是打开小红书并搜索'故宫的旅游攻略'。已成功打开小红书,下一步是点击搜索按钮进入搜索页面。", 'action_type': 'CLICK'})
LLM gelab-zero-4b-preview inference time: 0.82 seconds
llm ask id: chatcmpl-b1a249c48c9a6746
Step 4 took: 0.85 seconds
Executing command: adb -s NMUC210285 shell input tap 1013.04 76.8
Step 4/400 done. Action: OrderedDict({'cot': "我看到当前界面是小红书的首页。根据任务目标,我需要搜索'故宫的旅游攻略'。上一步点击搜索按钮的动作没有成功,因为界面没有变化。因此,我需要再次尝试点击右上角的搜索图标,以进入搜索页面。", 'explain': '我需要点击搜索图标来打开搜索页面,以便输入搜索内容。', 'action': 'CLICK', 'point': [938, 32], 'summary': "任务目标是打开小红书并搜索'故宫的旅游攻略'。已成功打开小红书,但上一步点击搜索按钮失败。现在将再次尝试点击搜索按钮。", 'action_type': 'CLICK'})

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions