字节跳动开源了一个桌面 AI Agent。
完全本地运行。
它能看见你的屏幕。 控制你的鼠标和键盘。 用大白话听懂指令。 在任何软件里替你干活。
"下载报告,上传系统,发邮件给老板。"
搞定。
不需要 API。 不需要连云端。 不需要复杂配置。
就是 AI 像真人助理一样,操作你的电脑。
实操:
1 请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。
2 请酒店预订

这才是真正有意思的地方:
所有重复的电脑操作,现在都能自动化:
• 报表导出
• 数据录入
• 系统更新
• 文件整理
• 行政流程
• 发票处理
这意味着:
你不再需要手动做重复活。 你需要的是更聪明的自动化。
机会来了。
你不是在学工具。 你是在学"用这个工具搭出自动化流程"。
一个工作流,能省你几百小时。 一套稳定方案,能变成你的核心竞争力。
而且因为它完全本地运行: 敏感数据,永远不出你的电脑。
这直接解决了企业不敢用 AI 的最大顾虑。
35,000+ stars,还在涨。
越早学会用自动化搞定重复工作的人, 优势越大。
先上车的,吃肉。 后知后觉的,连汤都赶不上。
15 分钟上手,不废话
# 1. 打开终端
# 2. 一行命令启动
npx @agent-tars/cli@latest
# 3. 选 volcengine(字节豆包),申请免费 API Key
# 4. 开始说人话
实测能用的指令,直接抄:
• "把桌面截图按日期归档到 Pictures/工作截图"
• "登录后台导出上周数据,整理成 Excel 发我"
• "在 VS Code 新建 React 组件 UserProfile,带默认样式"
• "跑单元测试,把失败用例列出来"
• "连测试机执行 docker logs,报错部分标红发我"
卡住了?三句话解决:
它不动 → 说"截个屏给我看看",它画识别结果给你确认
点了没反应 → 系统设置→隐私→给终端开屏幕录制权限
执行报错 → 问"哪一步卡了",它返回轨迹,你补指令
高阶玩法:让它越用越值钱
- 建个人规则库.tars/rules.md 写上你的套路:
我的发布流程
git pull
npm run build:prod
上传 OSS
钉钉通知 @前端组
下次一句"按流程发布",全自动跑完。
- 组合技:写代码 + 自己跑
"写个 Python 脚本重命名 jpg 加拍摄日期, 执行它, 把日志发我。"
它真能写完、跑完、汇报——你不用切窗口。
- 远程协作配好白名单,同事微信说"帮我点个确认", 你转发给 AI,它远程操作,不用开 TeamViewer。

资源
🔗
字节跳动 GitHub 仓库
:https://github.com/bytedance/UI-TARS-desktop
📘
中文文档
:https://agent-tars.com/zh/docs
🤖
火山引擎模型
:https://console.volcengine.com/ark
原文链接 https://mp.weixin.qq.com/s/KNadMSVmgvdWFu6wah7oSg
微信公众号【开源AI栈】
版权说明
文章采用: 《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权。版权声明:未标注转载均为本站原创,转载时请以链接形式注明文章出处。如有侵权、不妥之处,请联系站长删除。敬请谅解!



是此次VN