به گزارش رکنا، دکتر سید وهاب میررکنی، دانشمند برجسته ایرانی در حوزه ریاضی و علوم کامپیوتر، از چهرههایی است که نام او با معتبرترین مراکز علمی و فناوری جهان گره خورده است. دانشآموخته دانشگاه صنعتی شریف و مؤسسه فناوری ماساچوست (MIT)، که سالها تجربه فعالیت در شرکتهای بزرگی همچون مایکروسافت و گوگل را در کارنامه خود دارد، اخیراً بهواسطه یک دستاورد بنیادین در علم داده و فناوری اطلاعات، به عنوان برگزیده جایزه مصطفی(ص) در سال ۲۰۲۵ معرفی شد.
دستاوردی که این جایزه را برای میررکنی به ارمغان آورد، «توسعه طرح هش حساس به مجاورت» یا Locality-Sensitive Hashing (LSH) است؛ روشی که یکی از چالشهای اساسی دنیای دادههای عظیم را حل میکند. در جهان پردازش اطلاعات، فرآیندی به نام «هش» وجود دارد که دادههایی مانند متن، عدد یا فایل را به رشتههایی با طول ثابت تبدیل میکند. این فرآیند در مقیاسهای کوچک کاربردی ساده دارد، اما وقتی با صدها میلیون یا میلیاردها داده مواجه میشویم و حساسیت به تغییرات جزئی اهمیت پیدا میکند، محاسبات بهشدت سنگین و زمانبر میشود.
میررکنی با بهرهگیری از توابع پیشرفته ریاضی و توزیعهای خاص موسوم به «توزیعهای p-پایدار»، الگوریتمی را طراحی کرد که امکان هشکردن دادهها را با سرعت بسیار بالاتر فراهم میکند و همزمان، ابعاد دادهها را برای تحلیل در الگوریتمهای یادگیری ماشین و هوش مصنوعی کاهش میدهد. این نوآوری، نهتنها در حوزه امنیت سایبری، رمزنگاری، بلاکچین و هوش مصنوعی نقش کلیدی ایفا کرده، بلکه در تحلیل کلاندادههای پزشکی، داروسازی و زیستشناسی نیز تحولآفرین بوده است.
مسئله «جستوجوی نزدیکترین همسایه» سالهاست یکی از چالشهای کلاسیک علوم کامپیوتر محسوب میشود. پیش از ارائه این روش، الگوریتمهایی مانند درختهای KD یا روش Min-Hash مورد استفاده قرار میگرفتند؛ اما این روشها محدودیتهای جدی داشتند. از یک سو، بسیاری از آنها فقط برای نوع خاصی از توابع فاصله طراحی شده بودند و توانایی کار با فواصل کلیتری مانند فواصل LP را نداشتند. از سوی دیگر، این الگوریتمها در مواجهه با دادههای عظیم، مقیاسپذیر نبودند و زمان اجرای آنها بهصورت خطی افزایش مییافت.
نوآوری میررکنی دقیقاً در همین نقطه معنا پیدا میکند. او و همکارانش موفق شدند الگوریتمی طراحی کنند که زمان اجرای آن «زیرخطی» باشد؛ به این معنا که با افزایش حجم دادهها، رشد زمان پردازش بهشدت کنترل شود. این ویژگی باعث شد الگوریتم جدید، هم برای دادههای بسیار بزرگ و هم برای طیف گستردهای از توابع فاصله که پیشتر الگوریتم کارآمدی برای آنها وجود نداشت، قابل استفاده باشد.
در این پژوهش، توجه ویژهای به توابع فاصله LP شده است. در میان آنها، فاصله اقلیدسی (L2) به دلیل کاربرد گسترده در مسائل مختلف، اهمیت ویژهای دارد؛ هرچند در برخی حوزهها مانند پردازش تصویر، فاصله منهتنی (L1) نیز نقش کلیدی ایفا میکند. میررکنی در این طرح بهصورت ریاضی اثبات کرد که برای فاصله اقلیدسی، استفاده از توزیع نرمال یا گوسی در توابع هش، بهترین و بهینهترین انتخاب است. همچنین نشان داد که برای فاصله L1، توزیع کوشی عملکرد بهینهتری دارد. این انتخابها نه بر اساس سلیقه، بلکه بر پایه اثباتهای دقیق ریاضی انجام شدهاند.
بهکارگیری بردارهای تصادفی مبتنی بر این توزیعهای p-پایدار، تأثیر مستقیمی بر سرعت و دقت الگوریتم دارد. رفتار الگوریتم بسته به مقدار پارامتر p متفاوت است و پژوهش میررکنی نشان میدهد که در بازههای مشخصی از این پارامتر، الگوریتم بهصورت بهینه عمل میکند. در عین حال، دقت الگوریتم به تعداد توابع هش و تعداد جداول هش وابسته است؛ پارامترهایی که با تنظیم هوشمندانه آنها میتوان به تعادلی میان سرعت، دقت و مصرف حافظه دست یافت.
کاربردهای عملی این الگوریتم بسیار گسترده است. سامانههای توصیهگر، موتورهای جستوجو، تحلیل شباهت متون، پیشنهاد ویدئو در پلتفرمهایی مانند یوتیوب و حتی تحلیل دادههای زیستی و بیوانفورماتیک، همگی به نوعی به مسئله «یافتن دادههای مشابه» وابستهاند. در شرایطی که بررسی همه جفتهای دادهای نیازمند محاسباتی در حد N² است، این الگوریتم بدون بررسی تکتک حالتها، موارد مشابه را با دقت بالا شناسایی میکند؛ قابلیتی که برای پردازشهای برخط و آفلاین حیاتی است.
یکی از مزیتهای مهم این روش، سادگی بنیادین آن است. همین سادگی باعث شده که توسعه آن برای دادههای پویا و بهروزرسانی مداوم ساختارهای هش امکانپذیر باشد. مقاله اصلی این طرح که بیش از دو دهه پیش در یک کنفرانس تخصصی منتشر شد، به دلیل همین ویژگی، به یکی از پرارجاعترین مقالات حوزه خود تبدیل شده و مبنای توسعه بسیاری از الگوریتمهای پویا قرار گرفته است.
در مقایسه با روشهای سنتی مانند KD-Tree که زمان اجرای خطی دارند، الگوریتم میررکنی با افزایش حجم دادهها کارایی بهمراتب بالاتری از خود نشان میدهد. این مزیت بهویژه در مقیاسهای بزرگ، تفاوتی چشمگیر ایجاد میکند. هرچند استفاده از روشهایی مانند کوانتیزاسیون میتواند بر دقت تأثیر بگذارد، اما چارچوب این الگوریتم امکان مدیریت و تحلیل دقیق این اثرات را فراهم کرده است.
در نهایت، میررکنی تأکید میکند که ارزش اصلی این روش، نه فقط در استفاده مستقیم از آن، بلکه در نقش آن بهعنوان یک «بلوک سازنده» است؛ الگوریتمی ساده، منعطف و قابل ترکیب که میتواند پایه توسعه روشهای پیچیدهتر و کاربردیتر در آینده باشد. همین ویژگی است که آن را به یکی از ستونهای اصلی پردازش داده و هوش مصنوعی در دنیای امروز تبدیل کرده و جایزه مصطفی(ص) ۲۰۲۵ را به نام این دانشمند ایرانی ثبت کرده است.