بیگ دیتا، دادههایی بزرگ و پیچیده هستند که بیشتر از منابع جدید گرفته میشوند. این دادهها چنان حجیم هستند که نرم افزارهای مرسوم پردازش داده قادر به مدیریت آن نیستند. از این دادهها برای حل بعضی از مشکلات در کسب و کار استفاده میشود که قبلا قادر به حل آن نبودند. بیگ دیتا ترکیبی از داده ساختار یافته، نیمه ساختار یافته و ساختار نیافته است که توسط سازمانها جمع شده و میتواند از آن اطلاعاتی استخراج شود و در پروژههای یادگیری ماشین، مدل های پیش بینی و در کاربردهای تحلیلی پیشرفته استفاده شود.
بیگ دیتا به زبان ساده
دادههایی که حجم زیاد و سرعت بالا و تنوع گستردهای دارند بیگ دیتا نامیده میشوند. در زبان فارسی به بیگ دیتا، دادههای عظیم، کلان داده ها نیز گفته میشود.
ویژگی های بیگ دیتا
- حجم (Volume): مقدار داده اهمیت دارد. چون حجمهای بسیار بزرگ از این دادهها که دارای تراکم پایین و بدون ساختار هستند، باید پردازش شوند. مانند فیدهای داده توییتر یا فعالیت یک کاربر در اینترنت یا تجهیزات دارای حسگر. بعضی از سازمانها دارای دهها ترابایت از این دادهها هستند و بعضی دیگر صدها پتابایت (یک پتابایت برابر یک هزار میلیون میلیون بایت است).
- سرعت (Velocity): سرعت، نرخ دریافت داده است و معمولا بیشترین سرعتی است که داده به طور مستقیم به حافظه جریان می یابد. بعضی از محصولات هوشمند اینترنتی که به صورت بلادرنگ (Real-time) یا نزدیک به آن عمل می کنند نیازمند ارزیابی و عمل در لحظه هستند.
- تنوع (Variety): دادهها دارای تنوع زیاد هستند. انواع داده سنتی بصورت ساختاریافته بودند و در پایگاه داده های رابطه ای به خوبی جای میگرفتند. با ظهور کلان داده ها، داده بصورت بدون ساختار میآید. انواع داده نیمه ساختار یافته و بدون ساختار مانند متن، صوت و ویدئو نیازمند پیش پردازش هستند.
انواع بیگ دیتا
داده های ساختار یافته
بطور کلی این نوع از دادههای دارای طول و فرمت معین میباشند. مانند اعداد، تاریخها و رشتهها (گروههایی از کلمات و اعداد). این دادهها حدود 20 درصد از دادههای موجود را شامل میشوند و احتمالا با آن سر و کار داشتید . این دادهها بطور معمول در یک پایگاه داده ذخیره میشوند و با یک زبان مانند SQL قابل جست و جو هستند. دادههای مالی مثالی از این نوع داده هستند و در یک انبار داده (Data warehouse) برای آنالیز جمع میشوند.
منابع داده های ساختار یافته
منابع داده به دو دسته تقسیم می شوند:
- تولید شده توسط ماشین یا کامپیوتر
- تولید شده توسط انسان
دادههایی که توسط ماشین تولید میشوند میتوانند به شکل زیر باشند:
- داده های حسگرها : مانند جی پی اس (GPS) و تجهیزات پزشکی و سامانه شناسایی امواج رادیویی (RFID). برای مثال سامانه شناسایی امواج رادیویی در حال تبدیل شدن به یک تکنولوژی محبوب است.در این سامانه از چیپ های کامپیوتری برای ردیابی اشیا از راه دور استفاده میشود. یک کاربرد این سامانه، ردیابی محصولات از یک مکان به مکان دیگر است. اطلاعات از یک پذیرنده به یک سرور انتقال داده شده و در آن جا تحلیل میشود. شرکتها از این قابلیت برای مدیریت زنجیره تامین (Supply Chain Management) استفاده میکنند. مثال دیگر از دادههای حسگر، گوشیهای هوشمند هستند که دارای حسگرهایی مانند GPS بوده که از این حسگرها برای بررسی طرز رفتار مشتری استفاده میشود.
- داده های وب : سرورها، اپلیکیشنها، شبکهها و ... دادههای متنوعی درباره فعالیتشان ثبت میکنند. این حجم زیاد از داده میتواند مفید باشد. بعنوان مثال برای پیش بینی شکافهای امنیتی استفاده میشود.
- داده های خرده فروشی : وقتی صندوقدار بارکد هر محصولی که میخرید را میزند؛ همهی دادههای مرتبط با محصول تولید میشود. اگر به حجم همهی محصولاتی که توسط مردم خریده میشود فکر کنید؛ خواهید فهمید که چه مجموعه داده بزرگی به وجود میآید.
- داده های مالی : همهی سیستمهای مالی وابسته به نرمافزار شدهاند. آنها بر اساس قوانین تعیین شده که فرایندها را اتومات میکنند بنا شدهاند. معاملات سهام دارای داده ساختار یافته مانند نماد شرکت و ارزش دلار هستند. قسمتی از این دادهها توسط ماشین و قسمتی دیگر توسط انسان تولید میشوند.
مثالهایی از دادههای تولید شده توسط انسان به شرح ذیل هستند:
- داده ورودی : این شامل هر دادهای است که یک شخص ممکن است در کامپیوتر وارد کند. مانند: اسم، سن، درآمد. این داده برای فهمیدن نحوه رفتار مشتری مفید است.
- داده کلیک استریم ( Click-stream) : هر زمانی که شما روی لینکی در یک وب سایت کلیک میکنید اطلاعات آن ثبت میشود. از این داده برای تحلیل رفتار مشتری و الگوهای خرید استفاده میشود.
- داده مربوط به بازی : هر حرکتی که در یک بازی انجام میدهید میتواند ثبت شود. از این داده برای فهمیدن نحوهی حرکت یک گیمر در یک نمونه کار بازی استفاده میشود.
برخی از این دادهها به خودی خود بزرگ نیستند مانند داده یک پروفایل، اما وقتی مجموعه دادهی یکسانی که توسط میلیونها کاربر ثبت شده در یکجا جمع میشود، اندازه آن نجومی خواهد بود. علاوه بر این، بیشتر این دادهها یک خصوصیت در لحظه (Real-time) دارد که برای فهمیدن الگوهایی که قابلیت پیشبینی نتایج را دارند، مفید خواهد بود. این نوع از اطلاعات میتواند برای هدفهای مختلفی به کار گیرد.
داده های ساختار نیافته
دادههایی هستند که فرمت مشخصی ندارند. اگر 20 درصد از داده موجود در شرکتها یا سازمانها داده ساختار یافته باشد، 80 درصد دیگر آن داده ساختار نیافته است و این نوع داده بیشترین داده است که با آن سروکار خواهید داشت. اما جز ذخیره و تحلیل آن بصورت دستی نمیتوان کار زیادی با این داده کرد.
منابع داده ساختار نیافته
داده های ساختار نیافته همه جا هستند. در واقع بیشتر اشخاص و سازمانها از روی این دادهها کسب درآمد میکنند. مانند داده های ساختار یافته این دادهها یا توسط ماشین یا توسط انسان تولید میشوند.
چند مثال از دادههای تولید شده توسط ماشین:
- عکس های ماهواره ای : مانند دادههای آب و هوا یا دادهایی که حکومت توسط ماهوارههای نظارتی ثبت تصاویر ذخیره میکند. مثلا Google Earth را در نظر بگیرید.
- داده علمی : که شامل لرزه نگاری، داده جو و فیزیک انرژی بالا (High Energy Physics) میشود.
- عکس ها و ویدیو : مانند امنیت، نظارت و ویدیو ترافیک است.
چند مثال از از دادههای تولید شده توسط انسان:
- متن های داخلی در شرکت : مانند متون نوشتهها، لاگها، نتایج نظرسنجی و ایمیلها. اطلاعات شرکتها و سازمانها درصد بزرگی از متن موجود در دنیای امروز را تشکیل میدهد.
- داده شبکه های اجتماعی : دادههایی که از پلتفرمهای شبکه اجتماعی مانند فیس بوک و یوتیوب و توییتر و فلیکر تولید میشود.
- داده موبایل : مانند پیامکها و اطلاعات مکانی.
- محتوای وبسایت ها : این دادهها از هر سایتی که تولید محتوای ساختار نیافته میکند مانند یوتیوب و اینستاگرام میآید.
موارد استفادهی دادههای ساختار نیافته به سرعت در حال گسترش است. اگر فقط متون را در نظر بگیریم ابزارهای تحلیل متن می توانند متن ساختار نیافته را تحلیل و داده مرتبط را از آن استخراج کند و آن داده را به اطلاعات ساختار یافته تبدیل کند که به شکلهای مختلف استفاده میشود. برای مثال یک کاربرد رایج بیگ دیتا در تجزیه و تحلیل داده رسانه های اجتماعی (که دارای حجم بالای مکالمه بین مشتریها هستند) است. علاوه بر این، داده ساختار نیافته از ایمیلها و نظرسنجیها و دیگر نوشتهها تحلیل میشود تا رفتار مشتری معین شود. این داده میتواند با داده رسانه اجتماعی از دهها میلیون منبع ادغام شود تا تجربه مشتری درک شود.
داده های نیمه ساختار یافته
این نوع از داده، ما بین دادههای ساختار یافته و ساختار نیافته است و ضرورتا دارای ساختار ثابتی نیست اما ممکن است خود را توصیف کند و دارای زوجهای نشان-مقدار باشد. برای مثال زوجهای نشان-مقدار ممکن است به این شکل باشند: <فامیل>= کریمی، <مادر>= سارا، <دختر>= فاطمه باشد. EDI و SWIFT و XML مثالهایی از این نوع داده میباشند. شما میتوانید آنها را به منزلهی محمولههایی برای پردازش اتفاقات پیچیده در نظر بگیرید.
اهمیت و ارزش بیگ دیتا
امروزه بیگ دیتا تبدیل به سرمایه شده است. اگر بعضی از بزرگترین شرکتهای تکنولوژی را در نظر بگیرید، بخش بزرگی از ارزشی که ارائه میکنند، از دادههایی که دارند ناشی میشود. آنها بطور مداوم در حال تحلیل این دادهها هستند تا کارایی بیشتری ایجاد کنند و محصولات جدیدی توسعه دهند. پیشرفتهای جدید در تکنولوژی، هزینهی ذخیره داده و تحلیل آن را بطور نمایی کاهش داده است. با حجم بیشتر بیگ دیتا و دسترسی بهتر به آن شما میتوانید تصمیمهای بهتر و دقیقتری در کسب و کارتان بگیرید.ارزشمند بودن بیگ دیتا فقط به خاطر تحلیل بیگ دیتا نیست. ارزش آن به خاطر تحلیل گران بصیرتمند و کاربران کسب و کار و مدیران اجرایی است که سوالهای درست میپرسند، الگوها را تشخیص میدهند و فرضهایی آگاهانه میکند و رفتار را تشخیص میدهند.
تاریخچه ی بیگ دیتا
اگرچه مفهوم خود بیگ دیتا نسبتا جدید است، منشا مجموعههای بزرگ از داده به سالهای 1960 و 1970 برمیگردد. در این سالها دنیای داده با شکل گیری اولین مرکز دادهها و توسعه پایگاه داده های رابطه ای شروع شد. در حول و حوش سال 2005 مردم به تازگی فهمیدند چقدر کاربران از طریق فیس بوک و یوتیوب و دیگر سرویسهای آنلاین داده تولید میکنند. هدوپ (Hadoop) ، یک فریم ورک Open Source برای ذخیره و تحلیل مجموعه های بیگ دیتا، در همان سال توسعه یافت. NoSQL نیز در این زمان به محبوبیت رسید.
توسعه فریم ورکهای منبع باز (Open Source) مانند Hadoop و به تازگی Spark برای رشد بیگ دیتا ضروری بود چون این ابزارها کار با بیگ دیتا را آسان و ذخیره آن را ارزان تر میکنند. از آن سال به بعد، حجم بیگ دیتا سر به فلک کشید. کاربران هنوز مقادیر زیادی از داده را تولید میکنند اما فقط انسانها این کار را انجام نمیدهند. با شکل گیری اینترنت اشیا، اشیا و دستگاههای بیشتری به اینترنت متصل میشوند که باعث میشود دادهی بیشتری از عملکرد محصول و الگوهای مصرف مشتری جمع شود. پدید آمدن یادگیری ماشین نیز دادهی بیشتری تولید کرده است.
نحوه ی پردازش و ذخیره بیگ دیتا
بیگ دیتا اغلب در دریاچه داده (Data Lake) ذخیره میشود. در حالی که انبار داده (Data Warehouse) معمولا بر اساس پایگاه داده های رابطه ای ساخته میشود و فقط دارای داده ساختار یافته است، دریاچه داده میتواند انواع مختلفی از داده را پشتیبانی کند و معمولا بر اساس خوشههای Hadoop، سرویسهای ذخیره اشیا کلود، دیتابیسهای NoSQL یا دیگر پلتفرم های بیگ دیتا ساخته میشود.
محیط های بیگ دیتای زیادی، چند سیستم را در یک معماری توزیع شده ادغام میکنند. برای مثال، یک دریاچه دیتای مرکزی ممکن است با پلتفرمهای دیگری مانند پایگاه داده های رابطه ای یا یک انبار داده ادغام شود. داده های سیستم های بیگ دیتا ممکن است به شکل خام اولیه باقی بماند و بعد اگر نیاز شد فیلتر و سازماندهی شود. در موارد دیگر با استفاده از ابزارهای داده کاوی (Data mining) و نرم افزارهای آماده سازی داده پیش پردازش شده تا برای اپلیکیشنهایی که منظم اجرا میشوند، آماده باشد.
مکانهای پردازش بیگ دیتا بار سنگینی بر دوش زیرساخت پردازش اعمال میکنند. قدرت پردازش مورد نیاز این کار، توسط سیستمهای خوشهای که بار پردازش را روی صدها هزار سرور توزیع میکنند، تامین میشود (با استفاده از تکنولوژیهایی مانند هدوپ و اسپارک). تامین این ظرفیت پردازش بصورت اقتصادی یک چالش است. در نتیجه، کلود (Cloud) یک مکان محبوب برای سیستم های بیگ دیتا است. سازمانها میتوانند سیستم های مبتنی بر ابر (Cloud) خودشان را درست کنند یا از سرویسهای ارائه دهنده بیگ دیتا استفاده کنند.
بیگ دیتا و پردازش ابری
چون بیگ دیتا و پردازش ابری در نوشتهها با هم میآیند، تشخیص تفاوت بین آنها حائز اهمیت است.
تفاوت بیگ دیتا و پردازش ابری
پردازش ابری (Cloud Computing) به پردازش هر چیزی اشاره میکند که میتواند شامل تجزیه و تحلیل بیگ دیتا در کلود هم باشد. سرورهای قدرتمند کلود میتوانند مجموعه های بزرگ داده را بسیار سریعتر از یک کامپیوتر استاندارد مشاهده و جست و جو کنند. بیگ دیتا به مجموعههای بزرگ داده جمعآوری شده اشاره میکند در حالی که پردازش ابری به مکانیزمی اشاره میکند که به صورت از راه دور این داده را گرفته و روی آن عملیات مشخصی انجام میدهد.
بیگ دیتا و پردازش ابری یک زوج ایده آل
همانطور که میبینید، با ادغام بیگ دیتا و پردازش ابری، قابلیتهای بی نهایتی به وجود میآید. بدون پردازش ابری پتانسیل بالای مجموعه داده های عظیم بیگ دیتا بلا استفاده باقی میماند. زیرا تجزیه و تحلیل این دادهها با استفاده از کامپیوترهای داخل شرکت خیلی طول میکشید و در عمل غیر ممکن بود.
کاربرد های بیگ دیتا
بیگ دیتا میتواند برای هر صنعت و سازمانی مفید باشد. در این قسمت به بررسی کاربردهای بیگ دیتا میپردازیم، و تلاش میکنیم با یک مثال واقعی نشان دهیم چگونه شرکتها با استفاده از آن وارد بازارهای جدید شدهاند یا تجربه مشتری خود را بهبود دادهاند.
ساخت و تولید
انقلاب دیجیتال صنعت تولید را متحول کرده است. تولید کنندگان به دنبال افزایش بهره وری عملیاتی و ساده سازی فرآیندهای کسب و کار با استفاده از دادههای تولید شده میباشند. آنها میخواهند با دید ارزشمندی که به دست آورده رشد و سودشان را تضمین کنند.
- پیشبینی تعمیر و نگهداری : بیگ دیتا میتواند عیبهای تجهیزات را پیشبینی کند. مشکلات پنهان با تجزیه و تحلیل داده ساختار یافته (مانند سال و مدل تجهیز) و داده چند ساختاری (ورودیهای ثبت شده و داده حسگرها و اشکالات و دمای موتور و دیگر عوامل) کشف میشوند. با این دادهها، تولید کنندگان میتوانند عمر قطعات و تجهیزات را افزایش داده و تعمیرات را مقرون به صرفه کنند. در بسیاری از فرایندهای تولید، پیشبینی عمر بهینه سیستمها و قطعات مهم است (برای اینکه مطمئن شویم در چارچوب مشخص شده عمل میکنند). خطای قطعات میتوانند به بدی خرابی آنها باشد. برای مثال در تولید یک دارو، قطعهای که خطا دارد، میتواند یک ماده فعال را خیلی کم یا خیلی زیاد به دارو اضافه کند.
- بهره وری عملیاتی : یکی از زمینههایی که بیگ دیتا روی آن بیشترین تاثیر را دارد، سودآوری است. با بیگ دیتا، فرایندهای تولید تجزیه و تحلیل و ارزیابی میشود، فعالانه به بازخورد مشتری پاسخ داده شود و بازارکار آینده پیشبینی میشود.
- بهره وری تولید : بهینه سازی خطوط تولید میتواند باعث کاهش هزینهها و افزایش درآمد شود. بیگ دیتا میتواند به صنعتگران کمک کند جریان محصولات در خطهای تولید را بفهمند و ببینند چه جاهایی سود میدهد. تحلیل داده نشان میدهد چه گامهایی به افزایش زمان تولید و چه جاهایی باعث تاخیر میشوند.
چالشها :
شرکتها دادههایی که فرمتهای متفاوتی دارند را باید با هم ادغام کنند و سیگنالهایی که به بهرهوری تعمیر و نگهداری میانجامد را شناسایی کنند.
چالشها:
بهینه سازی خطوط تولید نیازمند این است که تولید کنندگان دادههای تجهیزات تولید خود، استفاده از مواد و دیگر فاکتورها را تحلیل کنند. ادغام انواع مختلفی از داده میتواند یک چالش باشد.
خرده فروشی
رقابت در خرده فروشی شدید است. برای جلو زدن از رقبا شرکتها باید خودشان را متمایز کنند. بیگ دیتا در تمام مراحل خرده فروشی (از پیشبینی محصول و بازار کار آن تا بهرهوری در فروشگاه) استفاده میشود. با استفاده از بیگ دیتا خرده فروشان راههای جدیدی برای نوآوری پیدا میکنند.
- توسعه محصول : بیگ دیتا به تشخیص خواسته مشتری کمک میکند. با طبقه بندی ویژگیهای کلیدی محصولات جدید و گذشته و سپس مدل کردن رابطه بین آن ویژگیها و موفقیت تجاری پیشنهادات، میتوان مدلهایی برای پیش بینی محصولات و سرویسهای جدید ساخت.
- تجربه مشتری : بیگ دیتا به خرده فروشها، دید شفافتری نسبت به تجربه مشتری میدهد. با جمعآوری داده از شبکههای اجتماعی، وبسایتها، تماسهای ثبت شده و دیگر منابع داده، شرکتها تعاملات با مشتری را بهبود میدهند. از تجزیه و تحلیل بیگ دیتا برای شخصیسازی پیشنهادات، کاهش ریزش مشتریها و حل فعالانه مسائل استفاده میشود.
- ارزش مشتری مادام العمر : همهی مشتریان ارزشمند هستند اما بعضی از دیگری با ارزشتر هستند. بیگ دیتا دید بهتری از رفتار مشتری و الگوهای مصرف او میدهد تا بهترین مشتریان شناسایی شوند. به آنها پیشنهادات مخصوصی داده شود. تیمهای فروش میتوانند وقت بیشتری به آنها اختصاص دهند. سرویس مشتری میتواند فعالیت بیشتری برای جلوگیری از ریزش آن مشتریها انجام دهد.
- تجربه خرید در فروشگاه : بسیاری از خرده فروشها شروع به تحلیل داده از اپلیکیشنهای موبایل، خریدهای فروشگاهی و موقعیتهای جغرافیایی کردهاند تا کسب و کار را رونق داده و مشتریها را تشویق به کامل کردن خریدها کنند.
چالشها :
شرکتها باید حجم بالایی از دادهها که در فرمتهای گوناگون میآید را تحلیل کنند و بخشهایی مطابق رفتار مشتری ایجاد کنند.
چالشها :
ادغام حجم زیاد داده از منابع مختلف سخت خواهد بود. وقتی که داده ادغام شد، آنالیز مسیر برای مشخص کردن مسیر تجربه و مرتبط کردن آنها با مجموعههای مختلفی از رفتار استفاده میشود.
چالشها :
برای مشخص کردن مشتریهای ارزشمند، شما نیاز دارید یک حجم بالا از داده تراکنش را تحلیل کنید و مدلهایی پیچیده به وجود آورید تا رفتار گذشته را بررسی و اقدامات آینده را پیشبینی کنید.
بهداشت
سازمانهای بهداشت از بیگ دیتا برای بهبود سود دهی تا کمک به نجات جان انسانها استفاده میکنند. شرکتهای بهداشت، بیمارستانها و محققان دادههای انبوهی جمعآوری میکنند. اما تمام این دادهها به تنهایی قابل استفاده نیست. این دادهها وقتی مهم هستند که تجزیه و تحلیل شوند تا روندها و تهدیدها در الگوها برجسته شوند و مدلهای پیشبینی ایجاد شوند.
- تحقیقات ژنوم : بیگ دیتا نقش مهمی میتواند در تحقیقات ژنوم ایفا کند. با استفاده از بیگ دیتا، محققان میتوانند ژنهای بیماریزا و نشانگرهای زیستی را شناسایی و به بیماران کمک کنند تا مشکلات مربوط به سلامتشان که ممکن است در آینده با آن مواجه شوند را به آنها تذکر دهند. این نتایج میتواند به سازمانهای بهداشتی این امکان را دهد تا درمان را شخصی سازی کنند.
- تجربه بیمار و نتایج : سازمانهای بهداشت دنبال درمان بهتر و بهبود کیفیت مراقبت بدون افزایش هزینهها هستند. بیگ دیتا میتواند منجر به بهبود تجربه بیمار به طور مقرون به صرفه شود. با بیگ دیتا، سازمانهای بهداشت میتوانند یک دید 360 درجه از مراقبت از بیمار ایجاد کنند (در حالی که درمانهای مختلف روی او انجام میشود).
- تشخیص ادعاهای تقلب : برای هر ادعا در زمینه بهداشت میتواند صدها گزارش مرتبط با آن در فرمتهای مختلف باشد. این کار باعث میشود تایید درستی برنامههای تشویقی بیمه و پیدا کردن الگوهایی که فعالیت متقلبانه را نشان میدهد، بسیار مشکل شود. بیگ دیتا کمک میکند سازمانهای بهداشت تقلب را با نشان کردن رفتارهای مشخص برای بررسی بیشتر تشخیص دهند.
- تجزیه و تحلیل صورت حساب مراقبت های بهداشتی : با تحلیل صورت حسابها و دادههای ادعاها، سازمانها میتوانند فرصتهای سودآور از دست رفته و جاهایی که جریان نقدی پرداختی میتواند بهبود یابد را کشف کنند. این کار نیاز به ادغام داده صورتحسابی که از پرداخت کنندههای متفاوت به دست میآید، تحلیل حجم بزرگی از داده و سپس تشخیص الگوهای فعالیت در داده صورتحساب به دست میآید.
چالشها :
حجم داده ژنوم عظیم است و اجرای الگوریتمهای پیچیده روی داده میتواند به زمان پردازش بالایی نیاز داشته باشد.
چالشها :
بهبود تجربه بیمار به حجم بزرگی از داده بیمار نیاز دارد که بعضی از آن میتواند داده چند ساختاری مانند عکسها و نوشتههای دکترها باشد.
چالشها :
تحلیل ادعاهای تقلب یک پروسه پیچیده است که شامل ادغام مجموعه دادههای متفاوت و تحلیل اطلاعات دادهها و تشخیص الگوهای تقلب پیچیده است.
چالش ها :
غربال کردن حجمهای بزرگ داده میتواند پیچیده باشد مخصوصا وقتی که ترکیبی از منابع دادهی مختلف موجود باشد.
صنعت نفت و گاز
صنعت نفت و گاز در چندین سال گذشته، از بیگ دیتا برای یافتن نوآوریهای جدید استفاده کرده است. این صنعت به مدت زیادی حسگرهای داده را به منظور نظارت بر عملکرد چاههای نفت، ماشینها و عملیات به کار برده است. شرکتهای نفت و گاز توسط این داده بر فعالیت چاهها نظارت کرده و زمین را برای پیدا کردن منابع جدید نفت مدل میکنند.
- پیش بینی تعمیر و نگهداری تجهیزات : شرکتهای نفت و گاز اغلب از وضعیت تجهیزات (مخصوصا در مکانهای دور از ساحل و آبهای عمیق) اطلاع کاملی ندارند. بیگ دیتا میتواند دید بهتری به شرکتها بدهد تا عمر باقیمانده قطعات و سیستم هایشان را پیش بینی کنند.
- اکتشاف نفت : اکتشاف نفت و گاز میتواند گران باشد. شرکتها از دادههای انبوهی که در فرایند حفاری و تولید به دست میآید برای تصمیم گیری بهتر درباره ی سایتهای حفاری جدید استفاده میکنند. داده تولید شده از مانیتورهای لرزه نگاری برای پیدا کردن منابع جدید نفت و گاز استفاده میشود.
- بهره وری تولید نفت : داده حسگر ساختار نیافته میتواند برای بهینه سازی تولید چاه نفت استفاده شود. با درست کردن مدلهای پیش بینی، شرکتها میتوانند تولید نفت را اندازه بگیرند و نرخ استفاده از چاه را بفهمند. با تحلیل داده عمیقتر، مهندسها میتوانند تعیین کنند که چرا خروجی واقعی چاه با پیش بینیهای آنها نمیخواند.
چالش ها :
دادهی ماشین و حسگر از تجهیزات مختلف در فرمتهای گوناگون میآید. ادغام تمام این داده میتواند سخت باشد. علاوه بر این، این داده باید به سرعت تحلیل شده و عملیاتی شود تا زمان عدم کارکرد را بصورت موثر کاهش دهد.
چالشها :
برای کشف منابع جدید نفت، شرکتها بایدحجم عظیمی از داده ساختار نیافته را ادغام و تحلیل کنند.
چالشها :
در این مورد به تحلیل حجم بزرگی از داده نیاز است. الگوریتمهای پیچیده نیز برای مشخص کردن شکل منحنی مرتبط با داده برای شناسایی ترندها لازم است.
چالش های بیگ دیتا
درست است که بیگ دیتا آینده روشنی دارد اما چالش هایی نیز با آن همراه است. اولا، بیگ دیتا بزرگ است و اگر چه تکنولوژیهای جدیدی برای توسعه ذخیره داده ایجاد شده است. حجم دادهها هر دو سال دو برابر میشود. سازمانها تلاش میکنند که راههای موثرتری برای ذخیره آن پیدا کنند. اما ذخیره داده به تنهایی کافی نیست. داده باید با ارزش باشد و این به سرپرستی نیاز دارد. داده تمیز یا دادههایی که مربوط به مشتری است و سازماندهی شده تا تحلیل معنا داری را ممکن سازد که به کار زیادی نیاز دارد. دانشمندان داده 50 تا 80 درصد زمانشان را برای سرپرستی و آمادهسازی داده میکنند تا داده آماده مصرف شود.
تکنولوژی بیگ دیتا با سرعت زیادی در حال تغییر است. چند سال پیش Apache Hadoop یک تکنولوژی محبوب برای مدیریت بیگ دیتا بود. بعد از آن Apache Spark در سال 2014 معرفی شد. هم اکنون یک ترکیب از دو فریم ورک رویکرد بهتری به نظر میآید. همگام شدن با فناوری کلان داده یک چالش مداوم است.
مهندس بیگ دیتا چه کاری انجام می دهد؟
یک مهندس بیگ دیتا طراحی و توسعه پایپ لاین های داده را انجام میدهد. آنها هستند که داده را از منابع متنوع جمع آوری و به مجموعههایی سازماندهی کرده تا تحلیل گران و دانشمندان داده با آن کار کنند. مهندسان بیگ دیتا مجموعههای بزرگ و پیچیده از داده را مدیریت میکنند. عملکرد پایگاه دادهها در نگهداری و مدیریت سیستمها و ابزارهای داده اهمیت فزایندهای پیدا میکند زیرا دنیای ما بیشتر به آنها وابسته میشود. آنها مسئول ادغام داده با زیرساختهای تحلیل مرکزی هستند. دانش آنها به داده موجود در شرکت و مکانهای ذخیره آن محدود نمیشود و تعیین میکند چه تکنولوژیهایی برای این کار مناسبند.
فهمیدن این که چه تکنولوژیهایی مورد نیازند گام اول برای شغل یک مهندس داده است سپس آنها یک زیرساخت کلان داده قابل اعتماد میسازند. آنها مسئول سیستمهای جمع آوری، ذخیره سازی، پردازش و تجزیه و تحلیل داده ها هستند. یک مهندس بیگ دیتا دادهی حیاتی را به راحتی در سراسر شرکت قابل دسترسی و استفاده میکنند.
بازار کار بیگ دیتا
هر سازمانی از همهی منابع ممکن داده جمع آوری میکند، تحلیل میکند و مبتنی بر آن تصمیم میگیرد. مهندس داده مسئول طراحی، توسعه، نگهداری و بهینه سازی کل سیستم پردازش داده است. مشکلات متفاوتی در ذخیره سازی و پردازش داده به وجود آمده است که به خاطر گسترش منابع داده و رشد فزاینده داده هستند. مقادیر عظیم داده، نرخ بالای تولید داده، ناهماهنگی دادهها و فرمتهای گوناگون دادهها مسائل اصلی هستند.
پیشبینی میشود که درآمدهای بازار جهانی بیگ دیتا برای نرمافزار و خدمات از 42 میلیارد دلار در سال 2018 به 103 میلیارد دلار در سال 2027 افزایش یابد و طبق Wikibon به نرخ رشد سالانه مرکب (CAGR) 10.48 درصد برسد.
درآمد مهندس بیگ دیتا
چون شرکتها بر بیگ دیتا برای تصمیمهای حیاتی تکیه میکنند. فرصت های شغلی در حوزه بیگ دیتا نامحدود است. یک مهندس بیگ دیتا بطور متوسط در ایالات متحده 90000 دلار دریافت میکند. رنج حقوقها از 66000 دلار تا 130000 دلار است.
چگونه یک مهندس بیگ دیتا شویم؟
یک مدرک لیسانس در زمینه مهندسی کامپیوتر یا علوم کامپیوتر، ریاضیات یا رشته مرتبط دیگر برای کار به عنوان مهندس بیگ دیتا نیاز است. یک مهندس بیگ دیتا به مهارتهای فنی و تجربه و تخصص بعلاوه یک مدرک نیاز دارد تا در کارش موفق باشد. بنابراین مهارت او چه پایتون، SQL یا یک عده از پلتفرمهای کلود باشد؛ یک مهندس بیگ دیتای مشتاق ممکن است با آموزش صحیح موفق شود. برای این که یک مهندس داده شویم، باید همه اصول لازم را یاد بگیریم. مهندسی داده به جمع آوری و مدیریت و پردازش اطلاعات نیاز دارد. شما باید مهارتهای زیر را داشته باشید:
ساختمان داده و الگوریتم ها
ساختمان دادهآموزش ساختمان داده و الگوریتمهر ساختمان داده یک نوع فرمت ذخیرهسازی و مدیریت دادهها در کامپیوتر است، که امکان دسترسی و اصلاح کارآمد آن دادهها را برای یکسری از الگوریتمها و کاربردها فراهم میکند، در این صفحه به بررسی و آموزش ساختمان داده و الگوریتم پرداخته شده است، روشی برای سازماندهی داده است تا کار با آن را آسان کند. هنگام کار با داده باید آن را با یک نظم منطقی نگه دارید تا دسترسی به آن سریع باشد. شکلهای گوناگونی از ساختمان داده وجود دارد. شما باید با هر کدام از آنها آشنا باشید مانند:
- آرایه
- هیپ
- درخت دودویی
- گراف
- صف
- ماتریس
الگوریتمالگوریتم چیست به زبان ساده و با مثال های فراواندر این مقاله به زبان بسیار ساده و با مثال های متعدد توضیح داده شده که الگوریتم چیست و چه کاربردهایی دارد ها دستورالعملهایی هستند که یک سری از کارها را با نظم مشخصی انجام می دهند. الگوریتمها معمولا مستقل از زبان برنامه نویسی هستند. الگوریتم ها در ساختمان داده برای کارهای زیر استفاده میشوند:
- پیدا کردن یک رکورد در دیتابیس
- اضافه کردن رکورد به دیتابیس
- مرتب کردن اشیا در یک ترتیب مشخص
- حذف یک آیتم
شما باید تلاش قابل ملاحظهای برای فهم الگوریتمالگوریتم چیست به زبان ساده و با مثال های فراواندر این مقاله به زبان بسیار ساده و با مثال های متعدد توضیح داده شده که الگوریتم چیست و چه کاربردهایی داردها اختصاص دهید.
SQL
SQL در بازار از سالهای 1970 حضور داشته است و بسیاری از توسعه دهندگان، مهندسان و تحلیلگران آن را بعنوان انتخاب اول خود در نظر میگیرند. این زبانی است که هر مهندس داده باید با آن آشنا باشد. این زبان بیشترین استفاده را در بین متخصصان داده دارد. SQL رایج ترین زبان برای ایجاد جست و جو های پایگاه داده است.
زبان های برنامه نویسی
شما باید در زبان های برنامه نویسی مانند پایتون و جاوا قوی باشید. پایتون در همه جا کاربرد دارد و بخاطر آسان بودن آن بسیار محبوب است. هر کاری که میخواهید به انجام برسانید با کمک یک کتابخانه از پایتون صورت میپذیرد. شما باید با java و Scala اشنا باشید. چون بیشتر نرم افزارهای ذخیره داده مانند Hadoop، Apache Spark و Apache Kafka در این زبانها توسعه داده شدهاند. شما بدون دانستن این زبانها قادر به استفاده از این نرم افزارها نخواهید بود. این به شما کمک میکند تا نحوه کار این ابزارها را بفهمید و این که چه کاری با آنها میتوانید انجام دهید. هر یک از این زبانها خصوصیت مخصوص به خود را دارند. Scala سریع است، جاوا گسترده و پایتون سازگار است.
مهارت های مورد نیاز یک مهندس داده
شما به تواناییهای مشخصی برای این کار نیاز دارید. از جنبه فنی شما باید در فریم ورکهای بیگ دیتا و تکنولوژی های مبتنی بر Hadoop مهارت داشته باشید. اکوسیستمهای هدوپ دارای ابزارهای متنوعی برای اپلیکیشنهای متفاوت هستند. به ابزارهای زیر باید مسلط شوید:
- HDFS (High-Definition File System) (Hadoop Distributed File System)
- YARN
- MapReduce
- HIVE & PIG
- Sqoop & Flume
- ZooKeeper
- Oozie
معماری پایگاه داده و طراحی آن نیز مهم است. مدلهای دیتا و طرح وارههای داده به همان اندازه توانایی های مهمی برای مهندس داده هستند.
مسئولیت های یک مهندس بیگ دیتا
- طراحی پلتفرم معماری مهندس بیگ دیتا
- نگهداری از پایپلاین داده
- تغییر و مدیریت ابزارها و دیتابیسها و انبارها و سیستم های تحلیلی
- سازماندهی داده و مدیریت آن
معرفی کتاب درباره بیگ دیتا
برای دانلود هر کدام از کتابها روی تصویر کتاب کلیک کنید.
بیگ دیتا یا کلان داده چیست؟
بیگ دیتا دادههایی بزرگ و پیچیده هستند که به خصوص از منابع جدید گرفته شده باشند. این دادهها چنان حجیم هستند که نرم افزارهای مرسوم پردازش داده قادر به مدیریت آن نیستند. از این دادهها برای حل بعضی از مشکلات در کسب و کار استفاده میشود که قبلا قادر به حل آن نبودند. بیگ دیتا ترکیبی از داده ساختار یافته، نیمه ساختار یافته و ساختار نیافته است که توسط سازمانها جمع شده و میتواند از آن اطلاعاتی استخراج شود و در پروژههای یادگیری ماشین، مدلهای پیش بینی و دیگر کاربردهای تحلیلی پیشرفته استفاده شود.
بیگ دیتا در چه مواردی کاربرد دارد؟
بیگ دیتا کاربرد بسیار گسترده ای دارد که میتوان به کاربرد آن در صنعت نفت و گاز، بهداشت، خرده فروشی و ساخت و تولید و … اشاره کرد که در این مقاله با جزییات به آن پرداخته شده است. برای مثال بیگ دیتا در بهداشت برای کشف داروهای جدید، تحقیقات روی بیماریها، تشخیص زود هنگام بیماریها و مراجعات کمتر به دکتر استفاده میشود. بیگ دیتا در صنعت نفت و گاز برای پیش بینی تعمیر و نگهداری تجهیزات، اکتشاف نفت و بهره وری تولید نفت کاربرد دارد.
بیگ دیتا در کجا ذخیره می شود؟
روشهای سنتی ذخیره داده (مانند پایگاه دادههای رابطهای، سیلوهای داده و مراکز داده) به خاطر حجم و تنوع داده، امروزه، برای ذخیره بیگ دیتا کافی نیستند. سیستم های مبتنی بر کلود، دریاچه داده و انبار داده گزینههای خوبی برای ذخیره و پردازش بیگ دیتا محسوب میشوند. بیگ دیتا اغلب در دریاچه داده (Data lake) ذخیره میشود و میتواند انواع مختلفی از داده را پشتیبانی کند، در حالی که انبار داده (Data warehouse) معمولا بر اساس پایگاه دادههای رابطهای ساخته میشود و فقط دارای داده ساختار یافته است.
بیگ دیتا به زبان ساده چیست؟
بیگ دیتا، دادههای خامی است که از منابع متعدد برای به دست آوردن بینش کسب و کار استفاده میشود. حجم این دادهها بسیار زیاد است، به اشکال مختلف (مانند ویدیوها یا تصاویر) و با سرعت بالا (مانند دادههای جریانی) به دست میآیند. در زبان فارسی به بیگ دیتا ، کلان داده یا داده ی حجیم یا داده های عظیم نیز گفته میشود.
بیگ دیتا چگونه جمع آوری می شود؟
بیگ دیتا از منابع مختلفی که میتوانند آنلاین یا آفلاین باشند جمع آوری میشود. این داده میتواند توسط انسان یا ماشین تولید شود مثالهایی از بیگ دیتا عبارتند از: دادههای حسگرها مانند جی پی اس، تجهیزات پزشکی و سامانه شناسایی امواج رادیویی، دادههای وب مانند دادههایی که توسط سرورها، اپلیکیشنها و شبکهها درباره فعالیتشان ثبت میشود، دادههای مالی، داده ورودی توسط اشخاص در کامپیوتر، داده کلیک استریم، عکسهای ماهوارهای، داده علمی، داده موبایلها، محتوای وب سایتها.