Өмнөх нийтлэлд бид agent гэж юу болохыг, LLM-ээс яагаад өөр болохыг ярьсан. Таван чадварыг нь нэг нэгээр нь тайлбарласан. Одоо тэдгээр яагаад ажилладаг талаас нь харцгаая.
Текст үүсгэдэг модель яаж бие даасан асуудал шийдвэрлэгч болдог вэ? Энд сонирхолтой зүйл байна. Өмнөх нийтлэлд ярьсан тэр таван чадвар бүгд ганцхан гурван архитектурын бүрэлдэхүүнээс үүсдэг.
Google-ийн agent whitepaper-аас үзвэл: бүх agent гурван зүйлээс бүтдэг — model (сэтгэх), tools (хийх), orchestration (холбох). Машинтай адилхан үг бол. Ямар ч брэнд байсан хөдөлгүүр, дугуй, жолооны систем байна. Agent дээр model, tools, orchestration байна.
Model
Сэтгэх чадварAgent-ын "тархи". Хэрэглэгчийн хүсэлтийг ойлгох, орчны мэдээллийг задлан шинжилж дараагийн алхмыг шийдэх. Бие даасан шийдвэр гаргалт, орчноо мэдрэх чадвар эндээс гардаг.
Tools
Хийх чадварAgent-ын "гар". Бодит ертөнцтэй харилцах арга. API дуудах, имэйл илгээх, календарь шалгах, нислэг захиалах. Текст бичхээс цааш бодит үйлдэл хийх боломжийг өгдөг.
Orchestration
Холбох процессAgent-ын "мэдрэлийн систем". Model ба tools-ийг хооронд нь зохицуулдаг. Юуны өмнө юу хийх, алдаа гарвал яах, дарааллыг яаж өөрчлөхийг тодорхойлоно. Зорилгод чиглэсэн байдал, идэвхтэй санаачлага эндээс үүснэ.





