Өмнөх нийтлэлд бид agent гэж юу болохыг, LLM-ээс яагаад өөр болохыг ярьсан. Таван чадварыг нь нэг нэгээр нь тайлбарласан. Одоо тэдгээр яагаад ажилладаг талаас нь харцгаая.
Текст үүсгэдэг модель яаж бие даасан асуудал шийдвэрлэгч болдог вэ? Энд сонирхолтой зүйл байна. Өмнөх нийтлэлд ярьсан тэр таван чадвар бүгд ганцхан гурван архитектурын бүрэлдэхүүнээс үүсдэг.
Google-ийн agent whitepaper-аас үзвэл: бүх agent гурван зүйлээс бүтдэг — model (сэтгэх), tools (хийх), orchestration (холбох). Машинтай адилхан үг бол. Ямар ч брэнд байсан хөдөлгүүр, дугуй, жолооны систем байна. Agent дээр model, tools, orchestration байна.
Model
Сэтгэх чадварAgent-ын "тархи". Хэрэглэгчийн хүсэлтийг ойлгох, орчны мэдээллийг задлан шинжилж дараагийн алхмыг шийдэх. Бие даасан шийдвэр гаргалт, орчноо мэдрэх чадвар эндээс гардаг.
Tools
Хийх чадварAgent-ын "гар". Бодит ертөнцтэй харилцах арга. API дуудах, имэйл илгээх, календарь шалгах, нислэг захиалах. Текст бичхээс цааш бодит үйлдэл хийх боломжийг өгдөг.
Orchestration
Холбох процессAgent-ын "мэдрэлийн систем". Model ба tools-ийг хооронд нь зохицуулдаг. Юуны өмнө юу хийх, алдаа гарвал яах, дарааллыг яаж өөрчлөхийг тодорхойлоно. Зорилгод чиглэсэн байдал, идэвхтэй санаачлага эндээс үүснэ.
Ингэж бодоод үз: model нь бие даасан шийдвэр гаргалт, орчноо мэдрэх чадварыг өгдөг. Tools нь бодит ертөнцөд үйлдэл хийх чадварыг өгдөг. Orchestration нь зорилгод чиглэсэн байдал, идэвхтэй санаачлагыг өгдөг. Гурвуул хамтдаа ажилласнаар таван чадвар бүгдийг үүсгэдэг.
Гурван бүрэлдэхүүний тухай мэдсэн. Гэхдээ яагаад яг энэ архитектур хэрэгтэй вэ? Эдгээргүйгээр юу болохыг төсөөлөөд үз.
Чи хүний хувийн туслах AI систем бүтээнэ гэж бод. Ойлгодог хэлний модель байна. Имэйл илгээх, календарь шалгах, нислэг захиалах API-ууд байна. Зүгээр хооронд нь холбоход болох юм шиг санагдана шүү дээ?
Болохгүй.
Хэрэглэгч "Ирэх долоо хоногт Сараатай уулзалт товлоорой" гэж хэлнэ. Чиний систем энэ бүгдийг хийх ёстой:
- Сараа гэж хэн болохыг ойлгох
- Хоёр талын календарь шалгах
- Хоёулаа чөлөөтэй цаг олох
- Уулзалтын урилга илгээх
- Хоёр календарьд нэмэх
- Хэрэглэгчээс баталгаажуулах
Энгийн юм шиг сонсогдоно. Гэхдээ эндээс бүх зүйл эхэлнэ.
Бүтцгүйгээр юу болох вэ?
Сараа завгүй бол яах вэ? Оронд нь if (sarah.busy) бичнэ.
Хэрэглэгчийн календарь дүүрэн бол яах вэ? if (calendar.full).
Имэйл явуулахад алдаа гарвал? if (email.failed).
Хэрэглэгч бага зэрэг өөр зүйл асуувал? Бүх логик эвдэрнэ.
Төгсгөлд мянга мянган мөрийн if-then-else логик бичиж сууна. Хэврэг, хатуу, хүн бага зэрэг өөр зүйл асуухад эвдэрдэг код.
Гол асуудал
Ажил төвөгтэй гэдэгт биш. Model, tools, orchestration гурвуул нэгдсэн архитектураар хамтдаа ажиллахгүйгээр төвөгтэй нөхцөлийг зөөлөн хатуу, хэврэг кодоор шийдэх гэж оролдоход л байна. Уян хатан, ухаалаг үйлдлийн оронд хатуу if-else сүлжээ бичиж сууна.
Тийм учраас гурван бүрэлдэхүүнийг зөв бүтэцлэх нь чухал. Model сэтгэнэ, tools гүйцэтгэнэ, orchestration хооронд нь зохицуулна. Энэ гурвын хамтын ажиллагаа нь зорилгод чиглэсэн, бие даасан, идэвхтэй үйлдлийг боломжтой болгодог.
Энэ бол Module 2-ын эхний хэсэг. Agent-ын гурван тулгуур бүрэлдэхүүн болон бүтэцгүйгээр юу болохыг ярьсан. Дараагийн хичээлд model, tools, orchestration тус бүрийг дэлгэрэнгүй нээнэ.





