دادهکاوی چگونه میتواند در پیدا کردن سلیقه مخاطب و موضوعاتی که بیشتر از آنها استقبال میشود، به تولیدکنندگان محتوا کمک کند؟
بگذارید با مثالی توضیح دهم. در بحث اخبار، رسانهها گرایش مخاطب را میدانند و در آن جهت گزارشهای خود را آماده میکنند. البته هر رسانهای ارزشها و اهداف خود را دنبال میکند، اما در مورد چگونگی جلب توجه مخاطب، میتوان از دادهکاوی و تحلیل دادهها کمک گرفت. فرض کنید بتوانیم ذائقه مردم را در کتابخوانی پیدا کنیم و بدانیم افراد با چه جنسیت، سن، شغل و موقعیت جغرافیایی به کدام موضوعات علاقه نشان میدهند. به همین ترتیب تحلیل دادهها مشخص میکند چه موضوعاتی به پرفروششدن یک کتاب کمک میکند.
گرچه یک ربات نمیتواند خلاقیت داشته باشد و حداقل دانش امروز ما به چنین چیزی نرسیده است، اما میتواند اطلاعاتی از تحلیل دادهها به ما بدهد که در نهایت به گیراتر شدن یک ایده کمک کند. برای مثال یکی از شبکههای جهانی پخش آنلاین فیلم بعد از مدتی، سلیقه مخاطب را پیدا کرده و اکنون از یک شبکه توزیع، به تولیدکننده فیلم تبدیل شده است.
علاوه بر این در حوزههای دیگر مثل ورزش نیز دادهکاوی نقش موثری ایفا میکند. ورزش حوزهای بود که زمانی نسبت به فناوری مقاومت نشان میداد، اما امروز آنالیزهای ورزشی، دادههایی مثل چگونگی ترکیب و چینش بازیکنان در زمین را به مربی میدهد تا تیم در بهترین حالت خود بازی کند.
چگونه به این دادهها و نتایجی که از آنها گرفته میشود میتوان اعتماد کرد؟
همان طور که خرد جمعی، معمولا در نهایت به نتیجهای مثبت منتهی میشود که میتواند سازنده باشد، هرچه حجم دادههای تحلیل شده بیشتر باشد، میتوان نتیجه بهتری از آن گرفت. هنگامی که دادهها خیلی زیاد است، میزان خطا کمتر میشود و چکیده صحیح و کاملی از دادههای تحلیلشده به دست میآید. هدف دادهکاوی پیشبینی الگوها و پیشبینی ناپذیرهایی برای هر فرد است که در نهایت طبق آنها رفتار میکند. تحلیل این الگوها میتواند نیازهای فرد را پیشبینی کرده و پیشنهادهایی متناسب با این نیازها به فرد ارائه کند. جوامع با وجود کلاندادهها پیشبینیپذیرتر از قبل شدهاند و بنابراین افراد میتوانند خدمات بهتر دریافت کنند. علاوه بر این کلان دادهها اطلاعات صادقانه به ما میدهند، به طوری که نمیتوان آنها را با تقلب و دستکاری طوری تغییر داد که سرنوشت نتایج آنها را دگرگون سازد. دلیل آن نیز عظیم بودن این دادهها و متنوع و مستقل بودن منابع آن است. ما بخصوص در محاسبات اجتماعی نیاز به تحلیل دادهها داریم، چون این دادهها صادقانه و صحیح هستند و بزرگ بودن حجم اطلاعات به ما در پیشبرد اهداف کمک میکند. برای مثال انبوه نظرات مردمی که در شبکههای اجتماعی منتشر میشود صادقانه است و میتوان از تحلیل آنها نتایج کاربردی گرفت.
نیمه تاریک تحلیل دادهها در شبکههای اجتماعی چیست؟ میتوان تاثیرات منفی را نادیده گرفت؟
تحلیل دادهها در پی واگذارکردن بخشی از حریم خصوصی به دست میآید و این هزینهای است که ما برای استفاده از نتایج تحلیل این دادهها میدهیم، اما هدف تحلیل دادهها از طریق جمعآوری اطلاعات جامعه، مشخص کردن روند جاری در جامعه است و بهطور شخصی به اطلاعات افراد کاری ندارد. در نهایت نیز این اطلاعات به عنوان دادههای طبقهبندی شده برای استفاده خود فرد ارائه میشود و میتوان از پیشنهادهای مرتبط استفاده کرد. در واقع میتوان گفت هنگامی استفاده از این اطلاعات تجاوز به حریم خصوصی افراد محسوب میشود که در اختیار شرکتها و سازمانهای بزرگ برای استفادههای تبلیغاتی یا جاسوسی قرار بگیرد.
با در نظر گرفتن همه این شرایط، ما به کلان دادهها اعتماد میکنیم. زیرا کلان دادهها از توزیعهای آماری تبعیت میکنند و خصوصیاتی دارند که نمیتوان در آنها تصرف کرد و روندها را کاملا صادقانه منتقل میکنند.
از چه زمانی انسان با بحث کلان دادهها روبهرو شده است؟
کلان دادهها همیشه وجود داشتهاند، اما امروز با گسترش اینترنت، شتاب تولید دادهها به شکل غیرقابل باوری زیاد شده است. تصور کلان داده در دنیای امروز بدون وجود رسانههای اجتماعی سخت است، زیرا پیش از این فقط پایگاههای داده وجود داشت که در سازمانهای بزرگ انبار شده بود، اما امروز خود کاربران دادهها را تولید میکنند. رسانههای اجتماعی امروز روی تولید، پخش و کیفیت محتوا تاثیرگذارند و در نهایت خودشان مصرفکننده این محتوا هستند. امروز وسیلهای به نام تلفنهای همراه هوشمند وجود دارد که در حالتهای مختلف در حال تولید داده است. هر کدام از برنامههای این گوشی به شکلی داده تولید میکند و چون موفقیت هر برنامه در فراگیرشدن آن است، این دادهها به صورت نمایی (تصاعدی) افزایش پیدا میکند. اگر حجم دادهها زیاد نباشد، نمیتوان الگوهای صحیح و رفتارهای پیشبینیپذیر از آن استخراج کرد. کلان داده در دنیای امروز ما با نفت مقایسه میشود. دادهها به صورت خام مثل نفت کثیف هستند، اما از هر دو چیزهای باارزشی به دست میآید. همچنین نفت در دورهای از تاریخ فاصله فقیر و غنی را کم کرده و امروز کلان داده فرصتی برای کشورهای در حال توسعه است تا فاصله خود را با کشورهای پیشرفته کمتر کنند. چون ما الان هم داده تولید میکنیم و هم میتوانیم با تصفیه دادهها از آنها استفادههای بهینه کنیم.
در کاوش متن چه اطلاعاتی تحلیل میشود و این اطلاعات چگونه میتواند به ما کمک کند؟
هنگامی که ما با نوشتههای تولید شده ذهن آدمی سر و کار داریم، به دنبال زبان طبیعی این نوشتهها هستیم که منبع تولید آن انسان است. با کمک زبان طبیعی و از روی نوشتهها میتوان به جنسیت، سن و بسیاری از ویژگیهای شخصیتی افراد پی برد. در واقع میتوان گفت نوشته هر فرد به نوعی امضای اوست. برای مثال بیشتر زنان از ضمیر و مردان از اسمها در نوشته خود استفاده میکنند.
یک متن در نهایت به داده تبدیل میشود، متن از کلماتی تشکیل شده و کلمات از توزیعهای آماری تبعیت میکنند و به این ترتیب دادهها به دست میآیند. ترکیب کلمات استفاده شده نیز اطلاعات خوبی برای تحلیل دادهها ارائه میدهد. در حال حاضر تحلیل متن و پردازش زبان طبیعی موتور اصلی تحلیل رسانههای اجتماعی است. زیرا رسانههای اجتماعی براساس زبان طبیعی پیش میرود و نحوه استفاده از کلمات زبان افراد را مشخص میکند. هدف ما در تحلیل دادهها این است که تا جای ممکن پیچیدگی کلمات را کم کنیم تا بتوانیم با این ابزار بخوبی کار کنیم.
امروز هر جا که انسان محتوایی تولید میکند، ازجمله مقالات علمی، اخبار، شبکههای اجتماعی و تبلیغات، دادهکاوی و متنکاوی هم کاربرد دارد. برای مثال در حوزه پزشکی سالانه دو تا سه میلیون مقاله منتشر میشود، از تحلیل این مقالهها میتوان ارتباطات موثری بین بسیاری از بیماریها و داروها پیدا کرد که تا به حال کشف نشده است. البته این نتایج باید ارزشگذاری شود و پس از کشف این رابطهها صحت آنها با آزمایش و روشهای دیگر تائید شود.
ارتباط دادهکاوی با پیشرفتهای نوین یادگیری ماشینی چیست؟
پیشینه یادگیری ماشینی به هوش مصنوعی برمیگردد. پیش از آن که رایانههای دیجیتال ساخته شود، کسی مثل آلن تورینگ (ریاضیدان و متخصص علوم رایانه) در اوایل دهه 1330/ 1950، اولین نظریه هوش مصنوعی را ارائه داده است. بنابراین ایده برنامههایی که بتوانند راهحلها را پیدا کنند، از آن زمان وجود داشته است، اما کار هوش مصنوعی این است که بهترین راهحل را پیدا کند و این تفاوت الگوریتمهای معمولی و الگوریتمهای هوش مصنوعی است. حال فرض کنید هوش مصنوعی همان سودای پرواز باشد که بشر ابتدا فکر میکرد برای پرواز باید پرواز پرنده را تقلید کند. به این ترتیب هوش مصنوعی خیلی تلاش کرد فرآیند یادگیری بشر را تقلید کند، که چندان موفق نبود، اما یادگیری ماشینی برای پرواز به تقلید حرکت پرنده فکر نمیکند و فرآیند پرواز را در نظر میگیرد. در واقع هوش مصنوعی قواعد را پیاده میکند و در یادگیری ماشینی براساس دادهها و به صورت آماری مدلسازی انجام میشود. نحوه حل مساله در یادگیری ماشینی نیز از تحلیل دادهها به دست میآید.
تحلیل دادههای کلان چگونه میتواند کیفیت زندگی امروز انسان را تغییر دهد و در چه زمینههایی نقش آن بیشتر دیده میشود؟
دادهکاوی فرصت جدیدی برای استعدادهای ایرانی است که میتوانند به کمک آن موفقیتهای چشمگیری در این زمینه کسب کنند. بحث شرکتهای دانش بنیان که امروز در دنیا مطرح است نیز مبتنی بر دادهها و ایجاد ارزش افزوده از آنهاست. این دادهها در همه جای دنیا همواره در حال تولید است و نیاز به استعدادهایی دارد که این دادهها را تحلیل کرده و از آنها استفاده کنند.
به عنوان مثال اگر بتوان از روی دادهها اطلاعاتی به دست آورد و ارتباطی بین نقاط حادثهخیز جادهها، زمان سال، سن راننده و اطلاعات به ظاهر غیرمرتبط دیگر را شناسایی کرد، میتوان حداقل 10 درصد از حجم تصادفات را کاهش داد و از متلاشی شدن حدود
2000 خانواده جلوگیری میشود. به این ترتیب این دادهها در بسیاری از زمینهها به بهبود زندگی افراد کمک میکنند.
دادهکاوی اجتماعی چیست؟
محاسبات اجتماعی و انسانی بخشی از دادهکاوی است که به تحلیل رفتارها و نیازهای افراد با شرایط مختلف میپردازد. استفاده از ساختارهای اجتماعی مثل تشخیص نقشهای اجتماعی، پیشبینی نقشهای شغلی، استخراج تراکنشهای مربوط به شبکههای اجتماعی و طبقهبندی ارتباطات اجتماعی چند بعدی ازجمله روشهای تحلیل دادههای اجتماعی است.
در واقع یک شبکه اجتماعی به عنوان یک ساختار اجتماعی از افراد تعریف میشود که براساس انواع رابطههای انسانی بنا شده است. این شبکهها میتوانند در ارتباط با مشاغل، علاقهمندی مشترک یا دوستی بنا شده باشند. تشخیص گروهبندی و پیدا کردن زیرگروههای هر کدام از این رابطهها میتواند اطلاعات بیشماری از علاقهمندی، نیازها و نحوه برخورد کاربران با جهان اطراف به دست دهد. به این ترتیب نتیجه دادهکاوی اجتماعی میتواند در تحلیل احساسات، تحلیل ادبیات و فیلم، تقسیمبندی دادههایی مثل اسناد، تجزیه و تحلیل ورزشی و دیگر دادههای علمی مشابه تاثیرگذار باشد.
با دکتر مسعود مکرهچی بیشتر آشنا شوید
دکتر مسعود مکرهچی، متخصص دادهکاوی متن، سال 1369 در رشته مهندسی برق از دانشگاه علم و صنعت ایران در مقطع کارشناسی فارغالتحصیل شد. سپس دوره کارشناسی ارشد مهندسی کامپیوتر را در دانشگاه شیراز گذراند و سپس برای ادامه مطالعات خود در زمینه مهندسی برق و کامپیوتر به دانشگاه واترلو کانادا رفت. او اکنون دانشیار انستیتو تکنولوژی دانشگاه انتاریو کاناداست و در زمینه محاسبات اجتماعی و انسانی مطالعه میکند. استخراج دادههای متن، دادهکاوی شبکههای اجتماعی و مطالعه روی سیستمهای هوش مصنوعی و یادگیری ماشینی از دیگر علایق این محقق در زمینه دادهکاوی است.
سپیده شعرباف
نظر شما