بیگ دیتا چیست و چه کاربردی دارد؟

کمیته رکن چهارم – فناوری بیگ دیتا (Big Data) یا کلان داده در عصر دیجیتالی امروز می‌تواند به تجزیه‌وتحلیل داده‌های گسترده و بهره‌مندی هدفمند از آن‌ها کمک کند.

فناوری بیگ دیتا (Big Data) یا کلان داده در عصر دیجیتالی امروز می‌تواند به تجزیه‌وتحلیل داده‌های گسترده و بهره‌مندی از آن‌ها کمک کند.

در این‌ مطلب قصد داریم ببینیم بیگ دیتا چیست، چه ویژگی‌هایی دارد، به چند دسته تقسیم می‌شود، با چه فناوری‌ها و تکنیک‌هایی در ارتباط است و چه کاربردهایی دارد.

بیگ دیتا چیست؟

در جامعه امروز روزانه حجم گسترده‌ای از داده‌ها ایجاد شده و حجم داده‌های تولیدی لحظه‌به‌لحظه بیشتر می‌شود. مطمئناً با افزایش باورنکردنی تعداد سیستم‌ها و دستگاه‌های دیجیتالی و گسترش استفاده از فناوری‌هایی مانند اینترنت اشیا و هوش مصنوعی، در آینده در تمام حوزه‌های دیجیتالی با سونامی عظیمی از داده‌ها مواجه خواهیم شد.

اگرچه با بهره‌مندی از داده‌های مختلف می‌توان به تصمیم‌گیری بهتر، اتخاذ رویکرد و راه‌حل‌های مناسب و همچنین بهبود عملکرد کسب‌وکارها و صنایع مختلف کمک کرد، اما برای تحقق این‌ هدف باید داده‌ها به‌شکل مناسبی پردازش و تجزیه‌وتحلیل شوند. مطمئناً در آینده روش‌های قدیمی یا حتی روش‌های متداول کنونی برای پردازش و تجزیه‌وتحلیل حجم گسترده‌ای داده‌ها کافی نیستند. اینجاست که بیگ دیتا به کمک ما می‌آید.

کلمه بیگ دیتا یا کلان داده برای تعریف داده‌های گسترده و پیچیده پردازش‌نشده استفاده می‌شود. پردازش کلان داده‌ها با استفاده از ابزارهای متداول امروزی دشوار و البته زمان‌بر است؛ اما اجازه دهید قبل از اینکه بیشتر در مورد مفهوم توضیح دهیم، ببینیم اصولاً به چه داده‌هایی کلان داده یا بیگ دیتا گفته می‌شود.

ویژگی‌های کلان داده‌ها

کلان داده‌ها دارای شش ویژگی هستند که شامل موارد زیر می‌شود:

  • حجم بالا (Volume)
  • تنوع گسترده (Variety): این ویژگی باعث دشوارشدن فرایند تجزیه‌وتحلیل کلان داده می‌شود
  • سرعت بالا در تولید (Velocity): کلان داده‌ها با سرعت بالایی تولید می‌شوند و طبیعتاً باید با سرعت بالایی هم آنالیز و پردازش شوند.
  • متغیر‌بودن (Variability): برخی از داده‌ها اصلاً ثابت نیستند و پیوسته درحال تغییرند. مطمئناً پردازش چنین داده‌هایی و مدیریت آن‌ها دشوار و نیازمند بهره‌مندی از راه‌حل‌های کارآمدی است.
  • قابل‌استفاده بودن در حوزه‌های مختلف (Veracity): کلان داده‌ها می‌توانند در گستره وسیعی از زمینه‌های مختلف استفاده شوند؛ بنابراین از دقت بالایی برخوردار هستند.
  • پیچیده‌بودن (Complexity): در برخی از موارد کلان داده‌ها بسیار پیچیده هستند و پردازش آن‌ها فرایند بسیار پیچیده‌ای محسوب می‌شود؛ مخصوصاً اگر از چند منبع مختلف جمع‌آوری‌شده باشند.

دسته‌بندی کلان داده‌ها

اکنون که می‌دانیم بیگ دیتا چیست، اجازه دهید با دسته‌بندی آن نیز آشنا شویم. کلان داده‌ها به سه دسته تقسیم می‌شوند. دسته اول، داده‌های دارای ساختار یا ساخت‌یافته (structured big data) هستند که می‌توان آن‌ها را در قالب مجموعه داده‌ها (Data sets) به‌صورت مرتب (مثلاً در ستون‌ها و ردیف‌های مشخص) در پایگاه‌های داده و صفحات گسترده (اسپریت شیت‌ها) ذخیره کرد. خواندن و پردازش چنین اطلاعاتی برای ابزارهای متداول طراحی‌شده برای این منظور، کار ساده‌ای است.

اطلاعاتی مانند اسامی، داده‌ها، آدرس‌ها، شماره کارت‌های بانکی، اطلاعات سهام و موقعیت جغرافیایی، مثال‌هایی از کلان داده‌های دارای ساختار هستند.

دسته دوم کلان داده‌ها، داده‌های بدون ساختار یا ساخت‌نیافته (unstructured big data) هستند. این داده‌ها با فرمت پایگاه داده ذخیره نمی‌شوند و دارای ساختار نیستند؛ البته داده‌های بدون ساختار، یک ساختار داخلی مختص به خود دارند؛ اما چنین ساختاری در مدل‌های داده‌ها قابل پیش‌بینی نیست. این‌ دسته از کلان داده‌ها ممکن است توسط انسان یا ماشین با فرمت متنی یا غیرمتنی ایجاد شده باشند. تبدیل داده‌های بدون ساختار به داده‌های دارای ساختار امکان‌پذیر است؛ اما فرایند زمان‌بری دارد.

اطلاعاتی مانند اطلاعات مرتبط با سرگرمی و رسانه‌ها، اینترنت اشیا، داده‌های مرتبط با سنسورها، اطلاعات اسناد، صورت‌حساب‌ها، اطلاعات ثبت‌شده و اطلاعات مرتبط با هوش مصنوعی و یادگیری ماشینی، مثال‌هایی از کلان داده‌های بدون ساختار هستند.

دسته سومی از کلان داده‌ها نیز وجود دارد که کلان داده‌های نیمه‌ساخت‌یافته (semi-structured) نام دارند و می‌توان آن‌ها را جزو کلان داده‌های دارای ساختار دسته‌بندی کرد. این‌ داده‌ها به‌دلیل عدم برخورداری از ساختار دارای فرمت، نمی‌توانند در جداول و مدل‌های داده‌ای قرار گیرند و ارائه شوند، اما بدون ساختار هم نیستند؛ این‌ داده‌ها دارای تگ‌ها، علامت‌ها و شاخص‌هایی هستند که می‌توانند برای دسته‌بندی داده‌ها و ایجاد فیلدها استفاده شوند.

داده‌های مرتبط با ایمیل‌ها، XML و دیگر زبان‌های نشانه‌گذاری، فایل‌های زیپ‌شده، داده‌های ادغام‌شده و استخراج‌شده از منابع مختلف و داده‌های مرتبط با صفحات وب، مثال‌هایی از داده‌های نیمه‌ساخت‌یافته هستند.

مهم‌ترین فناوری‌ها و تکنیک‌های مورد استفاده در بیگ دیتا

همان‌طور که گفتیم پردازش و آنالیز کلان داده‌ها دشوار است. برای انجام این‌ کار باید از تکنیک‌ها و فناوری‌های مختلف استفاده کرد. مهم‌ترین تکنیک‌ها و فناوری‌های مورد استفاده در این‌ حوزه به سه دسته تقسیم می‌شوند:

تجزیه‌وتحلیل داده‌ها

  • آزمون A/B: این‌تکنیک برای تشخیص گزینه مناسب‌تر از بین دو گزینه (گزینه A/B) استفاده می‌شود. آزمون A/B درحقیقت برای مقایسه نتایج یک آزمایش در دو حالت و نیز انتخاب حالت و روش مناسب به‌کار گرفته می‌شود.
  • یادگیری ماشینی: این‌ فناوری که یکی از فناوری‌های زیرمجموعه هوش مصنوعی محسوب می‌شود، توانایی تقلید از هوش انسانی را دارد. یادگیری ماشینی جهت آموزش سیستم‌های کامپیوتری برای انجام وظایف بسیار پیچیده استفاده می‌شود. تجزیه‌وتحلیل کلان داده‌ها یکی از این‌ وظایف است.
  • پردازش زبان طبیعی: این‌ فناوری نیز یکی از فناوری‌های زیرمجموعه هوش مصنوعی است. با ادغام فناوری پردازش طبیعی در سیستم‌های کامپیوتری، این‌ سیستم‌ها می‌توانند متن و گفتار را درست به همان صورتی که انسان آن‌ها را می‌فهمد، درک کنند.

فناوری‌های بیگ دیتا

  • هوش تجاری: با استفاده از این‌ فناوری می‌توان فرایندهای مرتبط با تحلیل‌های تجاری، استخراج داده‌ها، تجسم‌سازی داده‌ها و همچنین زیرساخت‌ها و ابزارهای مرتبط با داده‌ها و بهترین اقدامات را برای کمک به سازمان‌ها جهت افزایش میزان اتخاذ تصمیمات داده‌محور، با یکدیگر ترکیب کرد.
  • رایانش ابری: منظور از فناوری رایانش ابری، ارائه سرویس‌های محاسباتی در فضای ابری است. این‌ سرویس‌ها شامل ایجاد سرور، پایگاه داده، شبکه، نرم‌افزار، ابزارهای تجزیه‌وتحلیل، ابزارهای هوش مصنوعی و همچنین ذخیره‌سازی در فضای ابری است.
  • پایگاه داده: پایگاه داده به زبان ساده مجموعه‌ای سازمان‌یافته از اطلاعات یا داده‌های دارای ساختار است که معمولاً به‌صورت الکترونیکی در سیستم‌های کامپیوتری ذخیره می‌شوند.

کاربرد بیگ دیتا در حوزه‌های مختلف

اکنون که به‌خوبی می‌دانیم بیگ‌ دیتا چیست، اجازه دهید ببینیم چه کاربردهایی دارد. بیگ دیتا در حوزه‌های مختلف کاربردهای متعددی دارد؛ البته اصلی‌ترین کاربرد این فناوری، آنالیز داده‌هاست که در حوزه‌های مختلف با اهداف مختلف انجام می‌شود: مهم‌ترین موارد کاربرد کلان داده در حوزه‌های مختلف به شرح زیر است:

دولت و انتخابات

در انتخابات آمریکا برای مشخص‌کردن ایالت‌هایی که هر کدام از دو حزب دموکرات و جمهوری‌خواه در آن‌ها پیروز شده‌اند، از فناوری‌های کلان داده استفاده می‌شود.
بدون تردید پیوسته داده‌های بسیار زیادی در بخش‌های دولتی ایجاد می‌شود که تجزیه‌وتحلیل دقیق، درست و سریع آن‌ها بسیار مهم است. می‌توان با کمک فناوری‌های مرتبط با کلان داده‌ها بهترین سیاست‌ها، خطی‌مشی‌ها، تصمیمات و اقدامات دولتی را اتخاذ کرد.

سیاستمداران می‌توانند با بهره‌مندی از فناوری‌های مذکور، در انتخابات نیز پیروزی قاطعی به‌دست آورند. حزب بهاراتیا جاناتای هند و متحدانش و نیز ستاد انتخاباتی اوباما در سال ۲۰۱۲، با این روش توانستند در انتخابات پیروز شوند.

شبکه‌های اجتماعی

در عصر فناوری کنونی، شبکه‌های اجتماعی یکی از اصلی‌ترین منابع تولیدکننده سیلی از داده‌ها هستند. راه‌حل‌های جدید زیادی برای آنالیز داده‌های شبکه‌های اجتماعی روی پلتفرم‌های بیگ دیتا ایجاد شده‌اند. ابزار نرم‌افزاری Cognos Consumer که توسط IBM ارائه و بر پلتفرم کلان داده این شرکت با نام BigInsights اجرا شده، با همین هدف ایجاد شده است.

با آنالیز داده‌های شبکه اجتماعی می‌توان به نگرش‌های مختلف و ارزشمند دست یافت. همچنین می‌توان با این‌ روش نگرش‌ها و رویکردها را متناسب با شرایط و وضعیت‌ها تغییر داد و آن‌ها را به‌روز کرد.

صاحبان کسب‌وکارها و صنایع مختلف و افراد فعال در حوزه تبلیغات نیز می‌توانند با کمک آنالیز دقیق داده‌های شبکه‌های اجتماعی، بهترین تصمیمات و رویکردها را در زمینه‌هایی مثل قیمت‌گذاری و تعیین نوع کالا، خدمات خود و شیوه عرضه آن‌ها اتخاذ کنند. همچنین می‌توان برای بررسی دقیق پژوهش و نظرسنجی‌های انجام‌شده در بستر شبکه‌های اجتماعی نیز از فناوری‌های بیگ دیتا بهره‌مند شد.

ارائه اطلاعات لازم به کاربران هنگام جستجوی آن‌ها در پلتفرم‌های تعاملی آنلاین

استفاده از تکنیک‌های کلان داده برای ارائه اطلاعات در حوزه فناوری بسیار ضروری است. ارائه نتایج جستجوها در بخش‌های مختلف ازجمله موتورهای جستجو، ارائه پیشنهاد‌ها و اطلاعات لازم به کاربران، بدون استفاده از این تکنیک‌ها امکان‌پذیر نیست.

در فروشگاه اینترنتی eBay برای ارائه چنین اطلاعاتی، از داده‌های موجود در یک انبار داده ۷.۵ پتابایتی و یک Hadoop cluster (محیطی توزیع‌شده برای ذخیره‌سازی داده‌های دارای ساختار) ۴۰ پتابایتی استفاده می‌شود.

در زیرساخت فروشگاه اینترنتی آمازون که هر روز در آن میلیون‌ها عملیات بک‌اند (پردازش داده‌های ورودی سایت) انجام و بیش از نیم میلیون از تقاضاهای فروشندگان شخص ثالث بررسی می‌شوند نیز از فناوری‌های کلان داده در مقیاس بسیار گسترده‌ای استفاده می‌شود. فناوری اصلی کلان داده مورد استفاده در فروشگاه آمازون بر پایه لینوکس ایجاد شده است.

سه مورد از بزرگ‌ترین پایگاه‌های داده لینوکس با ظرفیت‌های ۷.۸، ۱۸.۵ و ۲۴.۷ ترابایت متعلق به این‌ فروشگاه هستند. فیسبوک هم مجموعه عظیمی از تصاویر بارگذاری‌شده توسط کاربران (با ۵۰ میلیارد تصویر) را مدیریت می‌کند.

تشخیص کلاهبرداری

صاحبان برخی از کسب‌وکارها ازجمله بیمه‌گذاران همیشه با ادعاهای مختلفی مواجه هستند که معمولاً میزان قابل‌توجهی از این‌ ادعاها فریبکارانه‌اند و به قصد کلاهبرداری مطرح می‌شوند. با فناوری‌های کلان داده می‌توان برای شناسایی ادعاهای کلاهبردارانه و فریبکارانه، ادعاهای مطرح‌شده در زمینه‌های مختلف را لحظه‌‌به‌‌لحظه آنالیز کرد. شناسایی رفتارهای غیرعادی از سوی کاربران نیز با این روش امکان‌پذیر است.

بررسی داده‌های مراکز تماس

داده‌های مراکز تماس نیز منبع خوبی برای دستیابی به نگرش‌های و رویکردهای مناسب و سازنده در زمینه بازاریابی و تبلیغات هستند. شاید نیروی انسانی بتواند این‌ داده‌ها را تجزیه‌وتحلیل کند، اما طبیعتاً ممکن است اطلاعات ارزشمند پنهان در میان چنین داده‌هایی نادیده گرفته شود یا به‌موقع تشخیص داده نشود.

همچنین ممکن است تماس‌گیرندگان مشکلات مشابهی را گزارش کنند و نیروی‌های انسانی سریعاً نتوانند به آن مشکل پی ببرند. با کمک فناوری‌های کلان داده و آنالیز سریع داده‌ها می‌توان هر دو مشکل را به‌شکل مطلوبی برطرف کرد.

همچنین درصورت استفاده از این‌ فناوری‌ها می‌توان الگوهای رفتاری مشتریان و پاسخ‌دهندگان را در مدت کوتاهی مشخص کرد. در برخی از موارد می‌توان فرایند آنالیز داده‌های مراکز تماس را کاملاً خودکار کرد. این‌ کار هم باعث کاهش هزینه‌های مرکز تماس در زمینه استخدام و آموزش نیروی انسانی می‌شود و هم به بهبود پاسخگوی این‌ مراکز کمک می‌کند.

دستیابی به اطلاعات مهم در کشاورزی

کشاورزان باید به داده‌های زیادی دسترسی داشته باشند تا بتوانند محصول با‌کیفیتی را برداشت کرده و از مواجهه با خسارات مالی شدید جلوگیری کنند. فناوری‌های کلان داده می‌توانند به کشاورزان برای دستیابی به‌موقع به این‌ داده‌ها و تصمیم‌گیری‌های مهم بر مبنای آن‌ها کمک کنند. این‌ داده‌ها شامل اطلاعات لازم برای بهینه‌سازی کیفیت محصولات و اطلاعات لازم در مورد شرایط آب‌و‌هوایی، میزان دما و رطوبت، ترکیبات و شرایط خاک، سطح آب‌های زیرزمینی و غیره می‌شود.

سایر موارد مهم کاربرد بیگ دیتا در حوزه‌های مختلف به شرح زیر است:

  • اطلاع از شرایط بازارهای مالی
  • تحلیل خطر سرمایه‌گذاری
  • تولید محتواهای مختلف برای مخاطبین هدف
  • دستیابی به اطلاعات لازم برای تجویز داروی مناسب برای هر یک از بیماران متناسب با شرایط آن‌ها
  • دستیابی به اطلاعات لازم برای انتخاب بهترین روش آموزشی در هر یک از حوزه‌های آموزشی
  • دستیابی به اطلاعات لازم برای تصمیم‌گیری در مورد انتخاب بهترین روش‌های تولید و همچنین دستیابی به روش‌های مؤثر برای مقابله با چالش‌ها و مشکلات مرتبط با تولید محصولات
  • دستیابی به اطلاعات ضروری برای حفظ مشتریان در کسب‌وکارهای خدماتی مختلف (مثل بیمه) و ارتقای کیفی سرویس‌دهی در آن‌ها
  • اطلاع لحظه‌به‌لحظه از موجودی زنجیره‌های تأمین
  • دستیابی به اطلاعات ضروری برای ارائه خدمات لجستیک با سرعت و امنیت بالا و بدون خطا
  • کنترل و مدیریت بهتر ترافیک، پیشنهاد مسیرهای مناسب به رانندگان، بهبود عملکرد سیستم‌های حمل‌ونقل هوشمند و همچنین تعیین تعداد لازم مراکز فروش و ارائه خدمات در هر مسیر و بخش برای صرفه‌جویی در مصرف سوخت وسایل نقلیه افراد و همچنین صرفه‌جویی در زمان آن‌ها
  • مدیریت بهتر نیروی کار، منابع و دارایی‌ها
  • دستیابی به اطلاعات لازم برای انتقال و توزیع بهتر انرژی

منبع : دیجیاتو

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Blue Captcha Characters Below.