با پیشرفت روزافزون دانش بشری و امکان ارتباطات بهواسطه ابزارهای مبتنی بر فناوری در دنیای امروز، علیالخصوص کامپیوترها، انسانها حجم زیادی از داده را تولید میکنند. از طرفی ابزارهای ذخیرهسازی اطلاعات نیز روزبهروز گستردهتر و بهینهتر میشوند و افراد، شرکتها و سازمانها را قادر میسازند علاوه بر ثبت دادهها، آنها را تحلیل کنند. هرچند تحلیل و پردازش این حجم از داده کار سادهای نیست، اما داده کاوی در این مرحله به کمک انسان میآید و از دل دادههای انبوه و با بهرهگیری از شیوهها و نرمافزارهای مختلف، اطلاعات و نکاتی فراهم میآورد که جهت مسیر بسیاری از فرایندهای مهم را تغییر میدهد. اما داده کاوی دقیقاً بهلحاظ فنی چیست؟ چه کاربردهایی دارد؟ چه مزایا و چه محدودیتهایی دارد؟ روشها و تکنیکهای انجام آن و مراحلش چه چیزهایی هستند؟ در ادامه این مقاله به این موضوعات پرداختهایم.
داده کاوی (Data Mining) چیست؟
داده کاوی فرایند مرتبسازی در مجموعه داده های بزرگ به منظور شناسایی الگوها و روابطی است که میتواند به حل مشکلات تجاری از طریق تجزیه و تحلیل داده ها کمک کند. تکنیکها و ابزار های داده کاوی، شرکتها را قادر میسازد تا روندهای آینده را پیشبینی و تصمیمات تجاری آگاهانهتری اتخاذ کنند.
داده کاوی در کل یکی از بخشهای کلیدی تجزیه و تحلیل داده و یکی از رشتههای اصلی علم داده است که از تکنیکهای تجزیه و تحلیل پیشرفته برای یافتن اطلاعات مفید در مجموعه دادهها استفاده میکند. در سطح جزئیتر، داده کاوی گامی در فرایند کشف دانش در پایگاه های داده (Knowledge Discovery in Databases) و روشی در علم داده برای جمعآوری، پردازش و تجزیه و تحلیل داده هاست. گاهی عناوین داده کاوی و KDD را به جای یکدیگر بهکار میبرند، اما در نگاه کلیتر دو مفهوم مجزا هستند.
دوره هوش مصنوعی برای همه
نمونه فیلمهایی از جلسات هوش مصنوعی برای همه
اهمیت داده کاوی
داده کاوی یکی از اجزای اصلی طرحهای تحلیلی موفق در سازمانهاست. از اطلاعات تولیدی آن میتوان در بحث هوش تجاری (BI) و برنامههای تحلیلی پیشرفته بهره گرفت که شامل تجزیه و تحلیل دادههای مربوط به گذشته است. همچنین در مورد برنامههای تحلیلی لحظهای که دادههای جاری را هنگام ایجاد یا جمعآوریشان بررسی میکنند، استفاده دارد.
داده کاوی نقش مؤثر در جنبههای مختلف برنامهریزی راهبردی کسبوکار و مدیریت عملیات دارد و موارد پیرامون ارتباط با مشتری مانند بازاریابی، تبلیغات، فروش و پشتیبانی و نیز تولید، مدیریت زنجیره تامین، امور مالی و منابع انسانی را شامل میشود. داده کاوی از کشف تقلب، مدیریت ریسک، برنامهریزی امنیت سایبری و بسیاری دیگر از موارد مهم تجاری پشتیبانی میکند. همچنین نقش مهمی در مراقبتهای بهداشتی، امور دولتی، پژوهشهای علمی، ریاضیات، ورزش و غیره دارد.
فرایند داده کاوی و مراحل انجام آن
معمولاً دانشمندان داده و سایر متخصصان هوش تجاری و تحلیلگران حرفهای هستند که داده کاوی را انجام میدهند، اما تحلیلگران زبده کسبوکار، مدیران اجرایی نیز میتوانند از عهده آن برآیند. عناصر اصلی داده کاوی شامل یادگیری ماشینیادگیری ماشین چیست و چرا مهم است؟ - Machine learning (ML)تعریف یادگیری ماشین : ماشین لرنینگ (Machine Learning یا به اختصار ML) باعث میشود که خود ماشینها با آنالیز داده ها امکان یادگیری و پیشرفت داشته باشند، این مقاله فوق العاده یادگیری ماشین را بصورت کامل بررسی کرده است و تجزیه و تحلیل آماری است. علاوه بر اینها، امور مدیریت داده برای آمادهسازی داده ها را نیز شامل میشود. استفاده از الگوریتم های یادگیری ماشین و ابزارهای هوش مصنوعیهوش مصنوعی (AI) چیست؟ انواع، کاربردها، مزایا و معایبهوش مصنوعی یا Artificial Intelligence یا به اختصار AI، امروزه کاربردهای بسیاری پیدا کرده و به یکی از داغترین حوزههای بشر تبدیل شده است، اما با این وجود بسیاری از افراد با کاربردهای آن آشنایی کامل ندارند، به همین علت در این صفحه کاربردها، مزایا و معایب AI بطور کامل بررسی شده است (AI)، بخش عمده فرایند را خودکار کرده است و استخراج اطلاعات از مجموعه داده های عظیم مانند پایگاه داده اطلاعات مشتریان، سوابق تراکنشها و فایلهای گزارش از سرورهای وب، اپلیکیشنهای موبایل و حسگرها را آسانتر میکند. فرآیند داده کاوی را میتوان به چهار مرحله اصلی تقسیم کرد که در ادامه به آن میپردازیم.
گردآوری داده (Data Gathering)
در این مرحله دادههای مربوط به برنامه تحلیلی را شناسایی و جمعآوری میکنند. ممکن است دادهها در سامانههای منبع مختلف، انبار داده (Data Warehouse) یا دریاچه داده (Data Lake) جای گرفته باشند که این منابع را بهطور روزافزون در بیگ دیتا یا کلان دادهبیگ دیتا (big data) یا کلان داده چیست؟ کاربردهای بیگ دیتااین صفحه فوق العاده به معرفی 0 تا 100 بیگ دیتا (big data) یا همان کلانداده پرداخته. بطور خلاصه بیگ دیتا به تحلیل و پردازش حجم زیادی از داده ها میپردازد بهکار میگیرند و حاوی ترکیبی از داده های ساختاریافته و داده های بدون ساختار هستند. احتمالاً از منابع داده خارجی نیز استفاده میکنند. منبع داده هر کجا که باشد، دانشمند داده در اغلب موارد آنها را برای انجام سایر مراحل به دریاچه داده منتقل میکند.
آمادهسازی داده (Data Preparation)
این مرحله خود شامل گامهایی است که دادهها را آماده کاوش میکنند. این کار با بررسی، نمایهسازی و پیشپردازش داده آغاز میشود و سپس کار پاکسازی داده را برای رفع خطاها و سایر مشکلات کیفیتی داده ها انجام میدهند. همچنین باید گام تبدیل داده را برای سازگاری مجموعه دادهها انجام دهند، مگر اینکه دانشمند داده با منظوری خاص، به دنبال تجزیه و تحلیل داده های خام و فیلترنشده باشد.
کاوش داده (Data Mining)
وقتی دادهها آماده شدند، دانشمند داده تکنیک داده کاوی مناسب را برمیگزیند و سپس یک یا چند الگوریتمالگوریتم چیست به زبان ساده و با مثال های فراواندر این مقاله به زبان بسیار ساده و با مثال های متعدد توضیح داده شده که الگوریتم چیست و چه کاربردهایی دارد را برای استخراج اطلاعات پیادهسازی میکند. در برنامههای یادگیری ماشینیادگیری ماشین چیست و چرا مهم است؟ - Machine learning (ML)تعریف یادگیری ماشین : ماشین لرنینگ (Machine Learning یا به اختصار ML) باعث میشود که خود ماشینها با آنالیز داده ها امکان یادگیری و پیشرفت داشته باشند، این مقاله فوق العاده یادگیری ماشین را بصورت کامل بررسی کرده است معمولاً باید الگوریتمها را بر روی مجموعه دادههای نمونه آموزش دهند تا هنگام اجرا با مجموعه کامل دادهها، به دنبال اطلاعات مورد نظر باشند.
تحلیل و تفسیر داده (Data Analysis and Interpretation)
از نتایج داده کاوی برای ایجاد مدلهای تحلیلی استفاده میکنند که میتواند به تصمیمگیری و سایر اقدامات تجاری کمک کند. دانشمند داده یا یکی دیگر از اعضای تیم علم داده نیز باید یافتهها را به مدیران تجاری و کاربران انتقال دهد که اغلب این کار را از طریق مصورسازی داده و تکنیکهای مشابه انجام میدهند.
نمونه فیلمهای دورههای مهارتی
انواع روش ها و تکنیک های داده کاوی
میتوان از تکنیکهای مختلف کاوش داده ها برای کاربردهای مختلف علم داده بهره گرفت. برای آشنایی بیشتر با مزایای علم داده مطالعهی صفحه مزایای علم دادهمزایای علم داده چیست، بررسی کامل اهمیت و مزایای علم دادهاین مقاله عالی به بررسی مزایای علم داده از جمله درآمد بالا و موقعیت کاری زیاد علم داده، کاربرد وسیع و اهمیت علم داده و همچنین به فرآیند یادگیری آن پرداخته پیشنهاد میشود. تشخیص الگو یکی از موارد رایج استفاده از داده کاوی است که با تکنیکهای متعدد قابل انجام است. تشخیص ناهنجاری نیز که هدفش شناسایی مقادیر پرت در مجموعه داده هاست، در همین رده قرار میگیرد. تکنیک های رایج داده کاوی شامل انواع زیر است:
کاوش قواعد وابستگی (Association Rule Mining)
قواعد وابستگی در داده کاوی، عبارات شرطی (اگر-سپس یا if-then) هستند که روابط بین عناصر داده را مشخص میکنند. در این تکنیک از معیارهای پشتیبانی و اطمینان برای ارزیابی روابط استفاده میکنند. پشتیبانی تعداد دفعات ظاهر شدن عناصر مرتبط در مجموعه داده را اندازهگیری میکند، درحالی که اطمینان نشاندهنده تعداد دفعاتی است که عبارت if-then صحیح است.
طبقه بندی (Classification)
این رویکرد عناصر موجود در مجموعه دادهها را به دستههای مختلفی اختصاص میدهد که بهعنوان بخشی از فرایند داده کاوی تعریف شدهاند. درخت تصمیم، دستهبندیکننده بیز ساده، k-نزدیکترین همسایه و رگرسیون لجستیک نمونههایی از روشهای طبقه بندی هستند.
خوشه بندی (Clustering)
در این روش و بهعنوان بخشی از برنامه داده کاوی، عناصر مجموعه دادهها را که ویژگیهای مشترک خاصی دارند، در خوشه ها گروهبندی میکنند. خوشه بندی k-میانگین، خوشه بندی سلسله مراتبی و مدلهای مخلوط گاوسی نمونههایی از این تکنیک هستند.
رگرسیون (Regression)
این مورد تکنیک دیگری برای یافتن روابط در مجموعه داده هاست که این کار را با محاسبه مقادیر داده های پیشبینیشده بر اساس مجموعهای از متغیرها انجام میدهد. رگرسیون خطی و رگرسیون چند متغیره نمونههایی از این تکنیک هستند. میتوان از درخت تصمیم و برخی روشهای طبقه بندی دیگر نیز برای انجام رگرسیون استفاده کرد.
تحلیل توالی و مسیر (Sequence and Path Analysis)
همچنین میتوان دادهها را در جستجوی الگوهایی کاوش کرد که در آن مجموعه خاصی از رویدادها یا مقادیر به رویدادهای بعدی منتهی میشوند.
شبکه عصبی (Neural Network)
شبکه عصبی مجموعهای از الگوریتم هایی است که فعالیت مغز انسان را شبیهسازی میکند. شبکه های عصبی بهویژه در کاربردهای پیچیده تشخیص الگو کاربرد دارد که با یادگیری عمیق (Deep Learning) پیوند دارند که خود شاخه پیشرفتهتری از یادگیری ماشینیادگیری ماشین چیست و چرا مهم است؟ - Machine learning (ML)تعریف یادگیری ماشین : ماشین لرنینگ (Machine Learning یا به اختصار ML) باعث میشود که خود ماشینها با آنالیز داده ها امکان یادگیری و پیشرفت داشته باشند، این مقاله فوق العاده یادگیری ماشین را بصورت کامل بررسی کرده است است.
دورههای مهارتی رشته کامپیوتر
ابزارها و نرم افزارهای داده کاوی
ابزارهای داده کاوی مختلفی وجود دارد که معمولاً بخشی از پلتفرمهای نرم افزاری مشتمل بر انواع دیگر ابزارهای علم داده و تجزیه و تحلیل پیشرفته هستند. از ویژگیهای کلیدی این نرم افزارها میتوان به قابلیت آمادهسازی داده، الگوریتمهای داخلی، پشتیبانی از مدلسازی پیشبینیکننده، محیط توسعه مبتنی بر رابط کاربری گرافیکی و ابزارهایی برای پیادهسازی و ارزیابی مدلها اشاره کرد. برخی از مهمترین نامها در این حوزه عبارتند از: Alteryx، AWS، Databricks، Dataiku، DataRobot، Google، H2O.ai، IBM، Knime، Microsoft، Oracle، RapidMiner، SAP، SAS Institute و Tibco Software و غیره.
مزایای داده کاوی
بهطور کلی، مزایای داده کاوی شامل توانایی کشف الگوهای پنهان، روندها، همبستگیها و ناهنجاریها در مجموعه داده هاست. این اطلاعات را میتوان برای بهبود تصمیمگیری تجاری و برنامهریزی راهبردی بهکار گرفت. مزایای خاص داده کاوی شامل موارد زیر است:
بازاریابی و فروش موثرتر
داده کاوی به بازاریابان کمک میکند رفتار و ترجیحات مشتری را بهتر درک کنند و کمپینهای بازاریابی و تبلیغاتی هدفمند فراهم سازند. همچنین، تیمهای فروش میتوانند از نتایج داده کاوی برای بهبود فروش محصولات و ارائه خدمات اضافی به مشتریان فعلی بهره بگیرند.
خدمات بهتر به مشتریان
به لطف داده کاوی، شرکتها میتوانند مشکلات بالقوه خدمات مشتری را سریعتر شناسایی کنند و اطلاعات بهروز را در اختیار کارمندان مرکز تماس قرار دهند تا از آنها در تماسها و چتهای آنلاین با مشتریان استفاده کنند.
بهبود مدیریت زنجیره تامین
سازمانها میتوانند روندهای بازار را شناسایی، تقاضای محصول را با دقت بیشتری پیشبینی و بدینترتیب موجودی کالا را بهتر مدیریت کنند. مدیران زنجیره تامین میتوانند از اطلاعات داده کاوی برای بهینهسازی انبارداری، توزیع و سایر عملیات لجستیکی نیز بهرهبرداری کنند.
افزایش زمان تولید
کاوش دادههای عملیاتی از حسگر ماشینهای تولیدی و سایر تجهیزات صنعتی، پیشبینی برنامههای تعمیر و نگهداری را برای شناسایی مشکلات احتمالی، آن هم قبل از وقوع بهبود میبخشد و به جلوگیری از خرابیهای برنامهریزینشده کمک میکند.
مدیریت ریسک قویتر
مدیران ریسک و مدیران کسبوکار میتوانند ریسکهای مالی، حقوقی، امنیت سایبری و سایر ریسکهای شرکت را بهتر ارزیابی نمایند و برای مدیریت آنها برنامهریزی کنند.
هزینههای پایینتر
داده کاوی با افزایش کارایی عملیاتی در فرایندهای تجاری و کاهش افزونگی و اتلاف مخارج شرکت، به صرفهجویی در هزینه کمک میکند. در کل داده کاوی میتواند منجر به درآمد و سود بالاتر و همچنین مزیتهای رقابتی شود که شرکتها را از رقبای تجاریشان متمایز میسازد.
کاربردهای مختلف داده کاوی
در این بخش به نحوه استفاده سازمانها در برخی صنایع از داده کاوی پرداختهایم:
خردهفروشی
خردهفروشان آنلاین، دادههای مشتری و سوابق کلیک آنها را کاوش میکنند تا بتوانند کمپینهای بازاریابی و تبلیغاتی خود را بهبود بخشند.
خدمات مالی
بانکها و شرکتهای کارت اعتباری از ابزار های داده کاوی برای ساخت مدلهای ریسک مالی، شناسایی تراکنشهای تقلبی و درخواستهای وام و اعتبار استفاده میکنند.
بیمه
بیمهگران برای کمک به قیمتگذاری و تصمیمگیری در خصوص تایید خط مشی خود از جمله مدلسازی ریسک و مدیریت مشتریان احتمالی به داده کاوی متکی هستند.
ساخت
کاربرد های داده کاوی برای تولیدکنندگان، بهبود زمان و کارایی عملیاتی در کارخانههای تولیدی، عملکرد زنجیره تامین و ایمنی محصول را شامل میشود.
سرگرمی
سرویسهای پخش آنلاین از داده کاوی بهره میگیرند تا بنا به سلیقه کاربران، به آنها مواردی را پیشنهاد و ارائه دهند.
مراقبتهای بهداشتی
داده کاوی به تشخیص شرایط پزشکی، درمان بیماران و تحلیل اشعه ایکس و سایر نتایج تصویربرداری پزشکی کمک میکند. تحقیقات پزشکی نیز به شدت به داده کاوی، یادگیری ماشینیادگیری ماشین چیست و چرا مهم است؟ - Machine learning (ML)تعریف یادگیری ماشین : ماشین لرنینگ (Machine Learning یا به اختصار ML) باعث میشود که خود ماشینها با آنالیز داده ها امکان یادگیری و پیشرفت داشته باشند، این مقاله فوق العاده یادگیری ماشین را بصورت کامل بررسی کرده است و سایر اشکال تجزیه و تحلیل وابسته است.
داده کاوی، تجزیه و تحلیل داده و انبار داده
گاهی داده کاوی را مترادف تجزیه و تحلیل داده در نظر میگیرند، اما عمدتاً جنبه خاصی از تجزیه و تحلیل داده است که مجموعه دادههای بزرگ را بهطور خودکار برای کشف اطلاعات کاوش میکند؛ آن هم اطلاعاتی که در غیر این صورت قابل شناسایی نبود. سپس میتوان این اطلاعات را در فرایند علم داده و دیگر برنامههای کاربردی هوش تجاری و تجزیه و تحلیل استفاده نمود.
انبار داده با ارائه فضا برای مجموعه دادههای بزرگ، پشتیبان داده کاوی است. در حال حاضر برنامههای داده کاوی اغلب دادههای مربوط به گذشته و نیز دادههای جاری را در دریاچه داده ذخیره میکنند که اساس کارشان پلتفرمهای کلان دادهبیگ دیتا (big data) یا کلان داده چیست؟ کاربردهای بیگ دیتااین صفحه فوق العاده به معرفی 0 تا 100 بیگ دیتا (big data) یا همان کلانداده پرداخته. بطور خلاصه بیگ دیتا به تحلیل و پردازش حجم زیادی از داده ها میپردازد مانند Hadoop و Spark، پایگاه داده NoSQL یا سرویسهای ذخیرهسازی ابری است.
تاریخچه و خاستگاه داده کاوی
فناوریهای ذخیرهسازی داده، هوش تجاری و تحلیل در اواخر دهه 1980 و اوایل دهه 1990 میلادی نمایان شدند و توانایی تجزیه و تحلیل حجم فزاینده دادهای را که سازمانها ایجاد میکردند، فراهم ساختند. عبارت داده کاوی در سال 1995 مصطلح بود، یعنی زمانی که نخستین کنفرانس بینالمللی کشف دانش و داده کاوی را در مونترال برگزار کردند.
جمعبندی
داده کاوی جزو فناوریهای بسیار مفیدی است که منجر به رشد و توسعه شرکتها، سازمانها، دولتها و در نهایت زندگی افراد میشود. این فناوری با تکیه بر قدرت پردازش کامپیوترها، توانسته است به کشف الگوهای پنهان و روابط موجود در مجموعه داده های بزرگی کمک کند که سیر بسیاری از امور را دستخوش تغییر میسازد.
هدف از داده کاوی چیست؟
با پیشرفت هر روزه دانش بشری و امکان ارتباطات به کمک ابزارهای فناورانه دنیای امروز، بهویژه کامپیوترها، انسانها حجم انبوهی از داده را تولید میکنند. از طرفی ابزارهای ذخیرهسازی اطلاعات نیز روزبهروز گستردهتر و بهینهتر میشوند و بسیاری را قادر میسازند علاوه بر ثبت دادهها، آنها را تحلیل کنند. هرچند تحلیل و پردازش این حجم از داده کار سادهای نیست، اما داده کاوی به کمک انسان میآید و از دل دادههای انبوه و با بهرهگیری از شیوهها و نرمافزارهای مختلف، اطلاعات و نکاتی فراهم میآورد که جهت مسیر بسیاری از فرایندهای مهم را تغییر میدهد.
داده کاوی چه مراحلی دارد؟
داده کاوی عناصر اصلی دارد که مبتنی بر علوم داده و شامل یادگیری ماشین (Machine Learning) و تجزیه و تحلیل آماری است. همچنین امور مربوط به آمادهسازی داده را شامل میشود. استفاده از الگوریتم های یادگیری ماشین و ابزارهای هوش مصنوعی (AI)، موجب خودکارسازی فرایند میشود و استخراج اطلاعات از مجموعه دادههای عظیم را آسانتر میکند. داده کاوی بهطور کلی شامل مراحل گردآوری داده، آمادهسازی داده، کاوش داده و تحلیل و تفسیر آن است.