Agent гэдэг үгийг сүүлд хаа сайгүй сонсож байгаа. Хүмүүс LLM-тэй холилдуулж ойлгох нь элбэг. ChatGPT-д юм бичүүлж, код зохиолгож, зөвлөгөө авч байгаа шүү дээ — agent ч тийм юм биз дээ гэж.
Үгүй. Огт өөр зүйл.
LLM-д tool залгаад тэрийг agent гэж дуудаад байвал буруу ойлголттой байна гэсэн үг. Agent бол бүхэлдээ өөр түвшний abstraction — өөрийн зорилгыг бие даан хөөж чадах систем. Асуулт бүрт тусад нь хариулдаг юм биш, контекстоо хадгалж, урагшаа төлөвлөж, зорилгодоо хүрэхийн тулд санаачлага гаргадаг.
"Generative AI agent гэдэг нь зорилгодоо хүрэхийн тулд ертөнцийг ажиглаж, өөрт байгаа хэрэгслүүдийг ашиглан үйлдэл хийдэг програм юм. Агентууд бие даасан бөгөөд хүний оролцоогүйгээр ажиллах чадвартай — ялангуяа тодорхой зорилго, даалгавар өгөгдсөн тохиолдолд. Агентууд зорилгодоо хүрэхийн тулд идэвхтэй хандлага баримталж чадна."
LLM ба tool-ийг хослуулсан бүх зүйл agent биш. Энэ тодорхойлолтыг задалбал жинхэнэ agent-д таван гол чадвар байх ёстой.
Зорилгод чиглэсэн байх
Агент асуултад хариулахаар биш зорилго руу ажиллахаар бүтээгдсэн. Одоогийн байдал ба хүссэн байдлын зөрүүг мэдэрч, түүнийг арилгахын тулд алхам хийнэ.
Бие даасан ажиллагаа
Зорилго өгөхөд л хангалттай. Тэндээсээ цааш ямар алхмууд хэрэгтэйг өөрөө тодорхойлж, алхам бүрт тусад нь заавар өгөх шаардлагагүй.
Идэвхтэй санаачлага
Зүгээр хариулаад суудаг биш. Тодорхой заавар байхгүй ч дараагийн алхам юу байх ёстойг өөрөө эргэцүүлж, зорилго руугаа идэвхтэй ажилладаг.
Орчноо мэдрэх
Хэрэглэгчийн хүсэлт, API хариулт, мэдээллийн сангийн төлөв, алдааны мессеж — эдгээрээс мэдээлэл авч, ертөнцийн загвараа байнга шинэчилж ажилладаг.
Хэрэгсэл ашиглах
API дуудах, мэдээллийн сантай ажиллах, гадаад сервис рүү хандах — зүгээр текст үүсгэхээс цааш бодит үйлдэл гүйцэтгэх чадвартай. Энэ нь агентыг зөвлөхөөс гүйцэтгэгч болгодог чадвар.
"Өнөөдөр куртка өмсөх үү?" гэсэн маш энгийн асуулт. Гурван өөр хандлагаар яаж хариулагддагийг харьцуул.
LLM мэдлэгтэй. Гэхдээ бодит ертөнцтэй ямар ч холбоогүй. Мэдээ харж чадахгүй, цаг агаарын API дуудаж чадахгүй. Зүгээр ерөнхий зөвлөгөө.
Дээшлэлт байна — tool ашиглаж байна. Гэхдээ яриаг чи удирдаж байгааг анзаар. Чи хэлэхгүй бол юу хийхээ мэдэхгүй. Чи байршил хэлсэн, чи дахин асуулт тавьсан. Тэр зүгээр дагаж байна.
Ялгааг анзаарч байна уу? Чи ганц асуулт тавьсан. Agent өөрөө байршлыг олсон, цаг агаар шалгасан, календарьаас гадаа уулзалт байгааг мэдсэн, оройн температурыг урьдчилан харсан. Бүгдийг нэгтгээд, чамд яг тохирсон хариулт өгсөн. Зорилготой, бие даасан, идэвхтэй, орчноо мэдэрч, хэрэгсэл ашиглаж байна.
Өөр нэг жишээгээр харцгаая. "Парис руу аялал захиалаарай" гэж хэлэхэд гурван систем яаж хариулахыг ажигла.
"Парис руу аялал захиалах заавар: 1-р алхам — skyscanner.com руу ороод нислэг хайна. 2-р алхам — огнооноо сонгоно..."
"Нислэг хайж чадна. Яг ямар өдрүүд вэ? Ямар агаарын тээврийн компани? Төсөв хэд вэ?"
"Чиний календартай тохирох 3 нислэг олсон. Төсөвт багтах зочид буудлуудтай хослуулсан. Захиалах уу?"
Нэг хүсэлт, гурван өөр хариулт. LLM заавар бичнэ. Function calling хийж чадна гэхдээ алхам бүрийг чи зааж өгнө. Agent өөрөө төлөвлөж, гүйцэтгэж, зөвхөн эцсийн шийдвэрийг чамаас асууна.
Энэ бол агентын бие даасан байдлын хүч.
Зарим асуудал бий — ердийн LLM, function calling ямар ч байсан хүрэхгүй. Таван чадвар зэрэг ажиллах шаардлагатай учраас зөвхөн agent шийдэж чадна.
Олон алхамт ажлын урсгал
Зардлын тайлан боловсруулна гэж бодоод үз. Имэйлээс баримт ялгах, зардлыг ангилах, компанийн бодлогод нийцэж байгааг шалгах, зөвшөөрөл авахаар чиглүүлэх, нягтлан бодох бүртгэлийн системд оруулах. Энэ бүгдэд зорилгод чиглэсэн байдал, бие даасан ажиллагаа, хэрэгсэл ашиглалт хамтдаа хэрэгтэй.
Байнга өөрчлөгдөх нөхцөлд шийдвэр гаргах
Аялалын тасалбар захиалж байхад нислэг дуусна, үнэ өөрчлөгдөнө, цагийн хуваарь зөрчилдөнө. Агент орчноо мэдэрч, дасан зохицож ажилладаг — нөхцөл байдал шинэчлэгдэх бүрт хандлагаа өөрчилнө.
Урт хугацааны хяналт
"Токио руу нислэгийн үнэ $800-аас доош болоход захиалаарай" — энэ бол нэг удаагийн асуулт биш. Энэ бол тасралтгүй хариуцлага. Байнга ажиглаж, нөхцөл хангагдсан үед л үйлдэл хийх. Таван чадвар бүгд хэрэгтэй.
Олон системийг уялдуулах
Таван өөр tool-оор нэг зорилгод хүрэхийн оронд агент олон системийг зэрэг зохицуулдаг. Арга хэмжээ зохион байгуулна гэхэд календарь, байрны мэдээллийн сан, хоолны үйлчилгээ, урилгын платформ бүгдтэй зэрэг ажиллаж, бүгдийг бие даан уялдуулна.
- → Хариу үйлдлээс идэвхтэй хандлага руу. Агент зүгээр хариулдаггүй — зорилго хөөдөг.
- → Тусгаарлагдсан байдлаас нэгдсэн байдал руу. Агент ярилцлага бүрийн контекст, төлөвийг хадгалж ажилладаг.
- → Зөвлөхөөс гүйцэтгэгч рүү. Юу хийхийг хэлдэг байснаас биечлэн хийдэг болсон.
- → Хатуу дагалтаас дасан зохицол руу. Агент сурсан зүйлдээ тулгуурлан хандлагаа өөрчилдөг.
Энэ бол LLM-ийн дараагийн шинэчлэлт хувилбар биш. Бүрэн шинэ төрлийн програмуудыг бий болгох боломжийг нээж байгаа paradigm shift.
Энэ нийтлэл нь Google-ийн "Developer Agent Fundamentals" хичээлийн эхний хэсгийн орчуулга. Дараагийн хичээлд агент яг хэрхэн ажилладаг — tool-ууд, orchestration, guardrail-уудын тухай дэлгэрэнгүй орно.





