大纲
Agent Architecture 基础
🎯 目标:你能设计 agent 系统。
核心模式:
- ReAct
- Plan-Execute-Reflect
- Hierarchical agent
- Tool-based agent
- Memory systems
- Multi-agent collaboration
Agent × Browser
🎯 目标:让 agent 操作 UI。
关键问题:
- 如何让 agent 理解 UI state?
- 如何规划 UI actions?
- 如何评估 UI result?
- 如何避免 hallucination?
技术:
- DOM / screenshot / accessibility fusion
- UI state abstraction
- Action planning
- Feedback loop
Agent Evaluation & Testing
🎯 目标:你能“评估 agent”。
核心:
- multimodal evaluation
- UI test generation
- self-critique / reflection
- trace-based evaluation
- metric design
Project
UI Understanding Agent / UI graph engine
功能:
- 输入网页 URL
- 输出:
- UI graph(结构树 节点、层级、空间关系)
- semantic labels(button / nav / card)
- 关键交互点 interaction map
- 视觉层级 visual hierarchy
- 美学评分
技术点:
- Playwright + screenshot + CDP
- DOM + Accessibility Tree
- layout info extraction
- LLM reasoning
- UI graph abstraction & modeling
UI Testing Agent
功能:
- 自动探索页面(点击 / 跳转 )
- 多轮交互
- 截图 + DOM + trace
- 功能 & 美学评测
- 输出测试报告
技术点:
- Agent planning
- Playwright tool calling
- Multi-modal evaluation
- Trace analysis
Content Agent
把 UI / 数据转成内容。
例如:
- chart → narrative
- UI → explanation
- video → structured summary
- data → story
满足个人兴趣,但必须:UI / Browser / Agent 三者结合。