شرکت متا با استفاده از مدلهای زبانی بزرگ (LLMs) توانست فرآیندهای مدیریت حوادثش را بهبود دهد و به نتایجی قابل توجه در دقت و کارایی دست یابد. بر اساس گزارشی که در وبلاگ مهندسی متا منتشر شد، این شرکت با دقت 42 درصدی علت اصلی حوادث را در میان پایگاه کد گسترده خود شناسایی کرد. این دستاورد نهتنها توان بالقوه هوش مصنوعی مولد را نشان میدهد، بلکه به سازمانهای دیگر، راهکاری برای ادغام فناوریهای مشابه در فرآیندهای مهندسی میدهد.
مدیریت حوادث در مقیاس متا
به گزارش تجارت نیوز، عملیات مهندسی متا که در مقیاسی بسیار بزرگ انجام میشود، شامل هزاران تغییر روزانه در کد است. بیشتر این کدها هم در مخزن کد عظیم و یکپارچهای صورت میگیرد. در چنین شرایطی، شناسایی و بررسی اختلالات یا حوادث، چالشی بزرگ میشود و ابزارها و فرآیندهای سنتی برای غربالکردن این حجم از تغییرات کافی نیست.
برای حل این مشکل، متا ابزارهای مدیریت حادثه پیشرفتهای طراحی کرده است که به مهندسان آنکال کمک میکند به سه پرسش کلیدی پاسخ دهند: چه مشکلی پیش آمده است؟ چرا این اتفاق افتاد؟ چگونه میتوان این مشکل را حل کرد؟ هوش مصنوعی مولد با توانایی تحلیل و اولویتبندی دادههای گسترده، ابزار مؤثری برای بهبود این فرآیندها ارائه و زمان شناسایی و رفع مشکل را کاهش میدهد.
نقش مدلهای زبانی در مدیریت حوادث
متا از مدلهای زبانی بزرگ برای تسریع در تجزیه و تحلیل علت اصلی حوادث (RCA) بهره برد. این سیستم با شناسایی محتملترین علتهای یک مشکل در آغاز تحقیقات، به مهندسان کمک میکند تا زمانشان با جستجوی تغییرات نامربوط هدر ندهند. این رویکرد در دو مرحله انجام میشود: بازیابی مبتنی بر قواعد و رتبهبندی با کمک LLM.
در مرحله بازیابی، سیستم با استفاده از قواعدی نظیر مالکیت کد، ساختار دایرکتوری و گرافهای کد زمان اجرا، موجب محدودشدن دامنه جستجو میشود. سپس مدل زبانی، تغییرات را بر اساس میزان ارتباطشان رتبهبندی و به مهندسان در تمرکز روی محتملترین دلایل کمک میکند.
این ابزار هوش مصنوعی بهطور یکپارچه در فرآیندهای موجود متا ادغام شده است. مهندسان همچنان تحقیقات خود را مثل گذشته ادامه میدهند، اما اکنون یک لیست اولویتبندی شده از دلایل احتمالی هم در اختیار دارند. این سیستم دستیاری برای تصمیمات سریعتر و آگاهانهتر است و قرار نیست جایگزین مهندسان باشد.
تنظیم مدل Llama 2 برای تحلیل علت اصلی
یکی از نوآوریهای کلیدی در این رویکرد متا، تنظیم دقیق مدل Llama 2، بهویژه نسخه 7 میلیارد پارامتری آن، برای تحلیل علت اصلی است. این مدل با دادههای تاریخی حوادث گذشته آموزش دیده تا الگوها و شرایطی که تغییرات خاصی در کد موجب مشکلات شده است را شناسایی کند.
فرآیند تنظیم دقیق مدل در دو مرحله انجام شد. در مرحله اول، آموزش پیشرفته مستمر (CPT) مدل با پایگاه دانش داخلی متا که شامل ویکیها، مخازن کد و مستندات سؤالات و پاسخها است، آشنا شد. این مرحله به مدل درک گستردهای از سیستمهای متا داد. در مرحله دوم، تنظیم دقیق نظارتی (SFT)، مدل با مجموعه دادههایی که مخصوص تحلیل علت اصلی طراحی شده بود، آموزش دید. این دادهها نمونههایی از تحقیقات با اطلاعات محدود بودد تا شرایط واقعی را شبیهسازی کند.
این فرآیند به مدل این امکان را داد تا لیستهای رتبهبندیشدهای از علل احتمالی تولید و با استفاده از احتمالات، احتمال هر تغییر را در بروز مشکل ارزیابی کند. ترکیب این توانایی با دادههای تاریخی، منجر به دقت 42 درصدی در شناسایی علت اصلی حوادث شد.
اهمیت دقت 42 درصدی در مدیریت حوادث
شاید دقت 42 درصدی در نگاه اول کم به نظر برسد، اما در مقیاس متا که روزانه هزاران تغییر در کد ایجاد میشود، حتی اتوماسیون جزئی در شناسایی علل اصلی هم میتواند کارایی را بهطور چشمگیری افزایش دهد. در نزدیک به نیمی از موارد، مهندسان میتوانند تحقیقات خود را با پاسخ صحیح شروع کنند و زمان رفع مشکل را از ساعتها به ثانیهها کاهش دهند.
در سازمانهای کوچکتر که پایگاه کد کمحجمتری دارد، ابزارهای مشابه مبتنی بر هوش مصنوعی ممکن است نرخ موفقیت بالاتری داشته باشد. حتی اگر این سیستم همیشه درست عمل نکند، باز هم با کمک به مهندسان برای تأیید یا رد سریع علل احتمالی، زمان و تلاش آنها را بهطور قابلتوجهی کاهش میدهد.
گام بعدی: عوامل هوش مصنوعی در مدیریت حوادث
موفقیت متا در تنظیم دقیق مدلهای زبانی نشان میدهد که عوامل هوش مصنوعی میتواند نقش بیشتری در مدیریت حوادث ایفا کند. این عوامل میتواند وظایف اضافی نظیر جمعآوری اطلاعات از منابع مختلف، پیگیری راهنماها، اندازهگیری تاثیر و حتی انجام اقدامات اولیه برای کاهش اثرات را بر عهده بگیرد. با پیشرفت در مدلهای زبانی بزرگ، احتمالا این عوامل قادر خواهد بود بخشهای بیشتری از فرآیند مدیریت حادثه را پوشش و بار کاری مهندسان را کاهش دهد.
درسهایی برای دیگر سازمانها
رویکرد متا با اولویتبندی علتهای احتمالی و محدودکردن دامنه جستجو، به سازمانها کمک میکند تا زمان تحقیقات را کاهش و کارایی کلی را افزایش دهند. هرچند بیشتر شرکتها منابع متا برای تنظیم دقیق مدلها را ندارند، ابزارهای دیگری مثل Parity تلاش میکند تا این مزیتها را در دسترس تیمهای کوچکتر نیز قرار دهد.
برای مثال،Parity از عوامل هوش مصنوعی استفاده میکند تا به طور خودکار مشکلات ناشی از هشدارهای ابزارهای نظارتی مثل PagerDuty یا DataDog را بررسی کند. این عامل اطلاعات لازم را جمعآوری، علل احتمالی را شناسایی میکند و یافتههای خود را پیش از آغاز تحقیقات به مهندسان ارائه میدهد. این رویکرد هم یاعث کاهش زمان رفع مشکل میشود.
آینده هوش مصنوعی در مدیریت حوادث
استفاده از هوش مصنوعی در مدیریت حوادث هنوز در مراحل اولیه قرار دارد، اما پتانسیلش بسیار زیاد است. با بهبود تواناییهای مدلهای زبانی بزرگ، انتظار میرود که در بسیاری از جنبههای مدیریت حادثه از عملکرد انسانی پیشی بگیرد. علاوه بر اختلالات سنتی، هوش مصنوعی میتواند نقش مهمی در پاسخ به حوادث امنیت سایبری نیز ایفا و به تحلیلگران امنیتی در شناسایی و پیشگیری از تهدیدات احتمالی کمک کند.