AI Agent гэж юу вэ? LLM-ээс яагаад ялгаатай юм бэ?

Agent гэдэг үгийг сүүлд хаа сайгүй сонсож байгаа. Хүмүүс LLM-тэй холилдуулж ойлгох нь элбэг. ChatGPT-д юм бичүүлж, код зохиолгож, зөвлөгөө авч байгаа шүү дээ — agent ч тийм юм биз дээ гэж.

Үгүй. Огт өөр зүйл.

LLM-д tool залгаад тэрийг agent гэж дуудаад байвал буруу ойлголттой байна гэсэн үг. Agent бол бүхэлдээ өөр түвшний abstraction — өөрийн зорилгыг бие даан хөөж чадах систем. Асуулт бүрт тусад нь хариулдаг юм биш, контекстоо хадгалж, урагшаа төлөвлөж, зорилгодоо хүрэхийн тулд санаачлага гаргадаг.

ТОДОРХОЙЛОЛТ

Google-ийн agent whitepaper юу гэж хэлдэг вэ?

"Generative AI agent гэдэг нь зорилгодоо хүрэхийн тулд ертөнцийг ажиглаж, өөрт байгаа хэрэгслүүдийг ашиглан үйлдэл хийдэг програм юм. Агентууд бие даасан бөгөөд хүний оролцоогүйгээр ажиллах чадвартай — ялангуяа тодорхой зорилго, даалгавар өгөгдсөн тохиолдолд. Агентууд зорилгодоо хүрэхийн тулд идэвхтэй хандлага баримталж чадна."

— Google Agent Whitepaper

LLM ба tool-ийг хослуулсан бүх зүйл agent биш. Энэ тодорхойлолтыг задалбал жинхэнэ agent-д таван гол чадвар байх ёстой.

ТАВАН ГОЛ ЧАДВАР

Жинхэнэ agent-ыг жинхэнэ agent болгодог зүйлс

Agent-ын таван гол чадвар — бүгд хамтдаа ажилласнаар жинхэнэ agent болдог

Зорилгод чиглэсэн байх

Агент асуултад хариулахаар биш зорилго руу ажиллахаар бүтээгдсэн. Одоогийн байдал ба хүссэн байдлын зөрүүг мэдэрч, түүнийг арилгахын тулд алхам хийнэ.

Бие даасан ажиллагаа

Зорилго өгөхөд л хангалттай. Тэндээсээ цааш ямар алхмууд хэрэгтэйг өөрөө тодорхойлж, алхам бүрт тусад нь заавар өгөх шаардлагагүй.

Идэвхтэй санаачлага

Зүгээр хариулаад суудаг биш. Тодорхой заавар байхгүй ч дараагийн алхам юу байх ёстойг өөрөө эргэцүүлж, зорилго руугаа идэвхтэй ажилладаг.

Орчноо мэдрэх

Хэрэглэгчийн хүсэлт, API хариулт, мэдээллийн сангийн төлөв, алдааны мессеж — эдгээрээс мэдээлэл авч, ертөнцийн загвараа байнга шинэчилж ажилладаг.

Хэрэгсэл ашиглах

API дуудах, мэдээллийн сантай ажиллах, гадаад сервис рүү хандах — зүгээр текст үүсгэхээс цааш бодит үйлдэл гүйцэтгэх чадвартай. Энэ нь агентыг зөвлөхөөс гүйцэтгэгч болгодог чадвар.

БОДИТ ЖИШЭЭ

Таван чадвар хэрхэн ажилладгийг нэг жишээгээр харцгаая

"Өнөөдөр куртка өмсөх үү?" гэсэн маш энгийн асуулт. Гурван өөр хандлагаар яаж хариулагддагийг харьцуул.

LLM, Function Calling, Agent гурвын харьцуулалт

Нэг асуулт, гурван өөр хандлага

LLM-ЭЭРЭЭ АСУУХАД

Чи"Өнөөдөр куртка өмсөх үү?"

LLM"Надад одоогийн цаг агаарын мэдээлэл байхгүй, гэхдээ ерөнхийдөө 15°C-ээс доош эсвэл бороотой бол куртка өмсөх нь зүйтэй."

❌Орчноо мэдрэхгүй ❌Хэрэгсэл ашиглахгүй

LLM мэдлэгтэй. Гэхдээ бодит ертөнцтэй ямар ч холбоогүй. Мэдээ харж чадахгүй, цаг агаарын API дуудаж чадахгүй. Зүгээр ерөнхий зөвлөгөө.

LLM + FUNCTION CALLING

Чи"Улаанбаатарын цаг агаарыг шалга"

LLM[Weather API дууддаг]

LLM"Одоо 8°C, үүлэрхэг байна"

Чи"Тэгвэл куртка өмсөх үү?"

LLM"Тийм, 8°C-д куртка өмсөөрэй"

✅Хэрэгсэл ашигласан ❌Бие даасан биш, идэвхтэй биш

Дээшлэлт байна — tool ашиглаж байна. Гэхдээ яриаг чи удирдаж байгааг анзаар. Чи хэлэхгүй бол юу хийхээ мэдэхгүй. Чи байршил хэлсэн, чи дахин асуулт тавьсан. Тэр зүгээр дагаж байна.

AGENT

Чи"Өнөөдөр куртка өмсөх үү?"

Agent[Байршлыг шалгав]

Agent[Цаг агаарын API дуудав]

Agent[Календарь дээрх гадаа болох уулзалтыг шалгав]

Agent[Оройн цаг агаарын урьдчилсан мэдээг харав]

Agent"Заавал өмсөөрэй. Одоо 8°C байгаа ч орой 18:00-д таны гадаа уулзалт байх үед 2°C хүртэл буурна."

✅Таван чадвар бүгд ажиллаж байна

Ялгааг анзаарч байна уу? Чи ганц асуулт тавьсан. Agent өөрөө байршлыг олсон, цаг агаар шалгасан, календарьаас гадаа уулзалт байгааг мэдсэн, оройн температурыг урьдчилан харсан. Бүгдийг нэгтгээд, чамд яг тохирсон хариулт өгсөн. Зорилготой, бие даасан, идэвхтэй, орчноо мэдэрч, хэрэгсэл ашиглаж байна.

ГОЛ ОЙЛГОЛТУУД

Гурван хандлагыг харьцуулах нь

Өөр нэг жишээгээр харцгаая. "Парис руу аялал захиалаарай" гэж хэлэхэд гурван систем яаж хариулахыг ажигла.

LLM ХАРИУЛТ

"Парис руу аялал захиалах заавар: 1-р алхам — skyscanner.com руу ороод нислэг хайна. 2-р алхам — огнооноо сонгоно..."

Зөвлөгөө л өгнө

FUNCTION CALLING

"Нислэг хайж чадна. Яг ямар өдрүүд вэ? Ямар агаарын тээврийн компани? Төсөв хэд вэ?"

Чиглүүлэлт хэрэгтэй

AGENT

"Чиний календартай тохирох 3 нислэг олсон. Төсөвт багтах зочид буудлуудтай хослуулсан. Захиалах уу?"

Бие даан ажилласан

Нэг хүсэлт, гурван өөр хариулт. LLM заавар бичнэ. Function calling хийж чадна гэхдээ алхам бүрийг чи зааж өгнө. Agent өөрөө төлөвлөж, гүйцэтгэж, зөвхөн эцсийн шийдвэрийг чамаас асууна.

Энэ бол агентын бие даасан байдлын хүч.

ЗӨВХӨН АГЕНТ ШИЙДЭХ АСУУДЛУУД

Дээрх таван чадвар хамтдаа ажиллахгүйгээр шийдэж чадахгүй асуудлууд

Зарим асуудал бий — ердийн LLM, function calling ямар ч байсан хүрэхгүй. Таван чадвар зэрэг ажиллах шаардлагатай учраас зөвхөн agent шийдэж чадна.

Олон алхамт ажлын урсгал

Зардлын тайлан боловсруулна гэж бодоод үз. Имэйлээс баримт ялгах, зардлыг ангилах, компанийн бодлогод нийцэж байгааг шалгах, зөвшөөрөл авахаар чиглүүлэх, нягтлан бодох бүртгэлийн системд оруулах. Энэ бүгдэд зорилгод чиглэсэн байдал, бие даасан ажиллагаа, хэрэгсэл ашиглалт хамтдаа хэрэгтэй.

Байнга өөрчлөгдөх нөхцөлд шийдвэр гаргах

Аялалын тасалбар захиалж байхад нислэг дуусна, үнэ өөрчлөгдөнө, цагийн хуваарь зөрчилдөнө. Агент орчноо мэдэрч, дасан зохицож ажилладаг — нөхцөл байдал шинэчлэгдэх бүрт хандлагаа өөрчилнө.

Урт хугацааны хяналт

"Токио руу нислэгийн үнэ $800-аас доош болоход захиалаарай" — энэ бол нэг удаагийн асуулт биш. Энэ бол тасралтгүй хариуцлага. Байнга ажиглаж, нөхцөл хангагдсан үед л үйлдэл хийх. Таван чадвар бүгд хэрэгтэй.

Олон системийг уялдуулах

Таван өөр tool-оор нэг зорилгод хүрэхийн оронд агент олон системийг зэрэг зохицуулдаг. Арга хэмжээ зохион байгуулна гэхэд календарь, байрны мэдээллийн сан, хоолны үйлчилгээ, урилгын платформ бүгдтэй зэрэг ажиллаж, бүгдийг бие даан уялдуулна.

ГУНД САНАА

Агентын abstraction нь AI системийн тухай бодлогыг бүхэлд нь өөрчилж байна

→ Хариу үйлдлээс идэвхтэй хандлага руу. Агент зүгээр хариулдаггүй — зорилго хөөдөг.
→ Тусгаарлагдсан байдлаас нэгдсэн байдал руу. Агент ярилцлага бүрийн контекст, төлөвийг хадгалж ажилладаг.
→ Зөвлөхөөс гүйцэтгэгч рүү. Юу хийхийг хэлдэг байснаас биечлэн хийдэг болсон.
→ Хатуу дагалтаас дасан зохицол руу. Агент сурсан зүйлдээ тулгуурлан хандлагаа өөрчилдөг.

Энэ бол LLM-ийн дараагийн шинэчлэлт хувилбар биш. Бүрэн шинэ төрлийн програмуудыг бий болгох боломжийг нээж байгаа paradigm shift.

Google Skills — AI Agent Fundamentals, Module 1, Lesson 1

Энэ нийтлэл нь Google-ийн "Developer Agent Fundamentals" хичээлийн эхний хэсгийн орчуулга. Дараагийн хичээлд агент яг хэрхэн ажилладаг — tool-ууд, orchestration, guardrail-уудын тухай дэлгэрэнгүй орно.