کلان‌داده‌، بزرگ داده‌[۱][۲] یا مه داده (به انگلیسی: big data) معمولاً به مجموعه داده‌هایی گفته می‌شود که بیش از حد بزرگ یا پیچیده هستند که نمی‌توان با نرم‌افزارهای کاربردی پردازش داده سنتی آنها را پردازش کرد. داده‌های با ورودی‌های زیاد (ردیف‌ها) توان آماری بیشتری را ارائه می‌دهند، در حالی که داده‌های با پیچیدگی بالاتر (ویژگی‌ها یا ستون‌های بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود.[۳] در حقیقت می‌توان گفت، مه‌داده حجم وسیعی از اطلاعات است که اگر حجم آن کم باشد قابل تفسیر و برداشت نیست.[۴]

اطلاعات جمع‌شده حسگر کوچک کیفیت هوا برای تصویرسازی از کلان‌داده (مه‌داده)

چالش‌های تجزیه و تحلیل مه‌داده‌ها شامل جمع‌آوری داده‌ها، ذخیره‌سازی داده‌ها، تجزیه و تحلیل دادها، جستجوی آنها، اشتراک گذاری، انتقال، مصورسازی داده، پرسمان، به روز رسانی، حریم خصوصی اطلاعات و تعیین منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت.[۵] بدون سرمایه‌گذاری کافی در تخصص برای صحت کلان داده‌ها، حجم و تنوع داده‌ها می‌تواند هزینه‌ها و خطراتی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از داده‌های بزرگ است.[۶] استفاده کنونی از واژه مه‌داده به استفاده از تحلیل پیشگویانه، تحلیل رفتار کاربر یا برخی دیگر از روش‌های پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از داده‌های بزرگ استخراج می‌کند و به ندرت به اندازهٔ خاصی از مجموعه داده‌ها می‌پردازد. «شکی وجود ندارد که حجم داده‌های موجود در حال حاضر واقعاً زیاد است، اما این مهم‌ترین ویژگی این اکوسیستم داده جدید نیست.»[۷] تجزیه و تحلیل مجموعه داده‌ها می‌تواند همبستگی‌های جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماری‌ها، مبارزه با جرم و جنایت و غیره» پیدا کند.

امروزه اندازه و تعداد مجموعه داده‌های موجود به سرعت رشد کرده است زیرا داده‌های فراوانی توسط دستگاه‌هایی مانند دستگاه‌های تلفن همراه، دستگاه‌های ارزان و متعدد سنجش اطلاعات اینترنت اشیا، سنجش از دور، گزارش‌های نرم‌افزارها، دوربین‌ها، میکروفون‌ها، سامانه بازشناسی با امواج رادیویی (RFID)، ریدرها و شبکه‌های حسگر بی‌سیم جمع‌آوری می‌شود.[۸][۹]

سیستم‌های مدیریت پایگاه داده رابطه‌ای و بسته‌های نرم‌افزار آماری رومیزی که برای مصورسازی داده‌ها استفاده می‌شوند، اغلب در پردازش و تجزیه و تحلیل مه‌داده‌ها با مشکل مواجه هستند. پردازش و تجزیه و تحلیل داده‌های بزرگ ممکن است نیاز به «نرم‌افزار موازی گسترده‌ای داشته باشد که بر روی ده‌ها، صدها یا حتی هزاران سرور اجرا می‌شود».[۱۰] کاربرد عنوان "مه‌داده‌" به مجموعه‌ای از داده‌ها، به توانایی‌های کسانی که آن را تجزیه و تحلیل می‌کنند و ابزار آنها بستگی دارد. برای برخی از سازمان‌ها، مواجه شدن با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازنگری در گزینه‌های مدیریت داده‌ها را ایجاد کند. برای برخی دیگر، ممکن است ده‌ها یا صدها ترابایت طول بکشد تا اندازه داده‌ها به یک موضوع قابل توجه تبدیل شود.»[۱۱]

تعریف

ویرایش

عبارت big data یا مه‌داده از دهه ۱۹۹۰ مورد استفاده قرار گرفته است و برخی رواج آن را به دانشمند علوم رایانه آمریکایی، جان مَشی نسبت می‌دهند.[۱۲][۱۳] مه‌داده معمولاً شامل مجموعه داده‌هایی است که اندازه آن فراتر از توانایی ابزارهای نرم‌افزاری رایج برای جمع‌آوری، گزینش، مدیریت و پردازش داده‌ها در مدت زمان قابل تحمل است.[۱۴] فلسفه داده‌های بزرگ شامل داده‌های بدون ساختار، نیمه ساختاریافته و ساختاریافته است، با این حال، تمرکز اصلی بر روی داده‌های بدون ساختار است.[۱۵] «اندازه» داده‌های بزرگ یک هدف دائماً در حال حرکت است و از سال ۲۰۱۲ از چند ده ترابایت تا چندین زتابایت داده تغییر کرده است.[۱۶] مه‌داده به مجموعه‌ای از روش‌ها و فن‌آوری‌ها با اشکال جدید ادغام نیاز دارد تا بینش‌هایی را از مجموعه‌های داده‌ای که متنوع، پیچیده و در مقیاس وسیع هستند، آشکار کند.[۱۷]

ویژگی‌ها

ویرایش
 
رشد داده ها را از یک منبع واحد به سمت داده های بزرگ و حجم، سرعت و تنوع مرتبط با آن را نشان می دهد.

کلان داده را می‌توان با ویژگی‌های زیر توصیف کرد:

مقدار داده‌های تولید شده و ذخیره شده اندازه داده‌ها ارزش و بینش بالقوه را تعیین می‌کند و اینکه آیا می‌توان آن را مه‌داده در نظر گرفت یا خیر. اندازه مه‌داده معمولاً بزرگتر از ترابایت و پتابایت است.[۱۸]

تنوع نوع و ماهیت داده‌ها. فناوری‌های قبلی مانند RDBMSs قادر بودند داده‌های ساختاریافته را به صورت کارآمد و مؤثر مدیریت کنند. اما تغییر نوع و ماهیت از ساختاریافته به نیمه‌ساختاریافته یا بدون ساختار، ابزارها و فناوری‌های موجود را به چالش کشید. فناوری‌های داده‌های بزرگ با هدف اصلی جمع‌آوری، ذخیره‌سازی و پردازش داده‌های نیمه‌ساختاریافته و بدون ساختار (تنوع) که با سرعت بالا (سرعت) و حجم عظیم (حجم) تولید می‌شدند، تکامل یافتند. بعداً، این ابزارها و فناوری‌ها برای مدیریت داده‌های ساختاریافته نیز کاوش و استفاده شدند اما ترجیحاً برای ذخیره‌سازی. در نهایت، پردازش داده‌های ساختاریافته هنوز به عنوان یک گزینه نگه داشته شد، یا با استفاده از داده‌های بزرگ یا RDBMSs سنتی. این کمک می‌کند تا داده‌ها را به سمت استفاده مؤثر از بینش‌های پنهانی که از داده‌های جمع‌آوری شده از طریق رسانه‌های اجتماعی، فایل‌های لاگ، حسگرها و غیره نمایان می‌شوند، تجزیه و تحلیل کنیم. داده‌های بزرگ از متن، تصاویر، صوت، ویدیو برداشت می‌کند؛ علاوه بر این، قطعات گمشده را از طریق ادغام داده‌ها تکمیل می‌کند.

سرعت تولید و پردازش داده‌ها برای پاسخگویی به خواسته‌ها و چالش‌هایی که در مسیر رشد و توسعه قرار دارند. داده‌های بزرگ اغلب در زمان واقعی در دسترس هستند. در مقایسه با داده‌های کوچک، مه‌داده‌ها با استمرار بیشتری تولید می‌شوند. دو نوع سرعت مربوط به مه‌داده عبارتند از فرکانس تولید و فرکانس پردازش، ضبط و انتشار.[۱۹]

صحت یا قابلیت اطمینان داده‌ها که به کیفیت داده‌ها و ارزش داده‌ها اشاره دارد.[۲۰] مه‌داده‌ها نه تنها باید از نظر اندازه بزرگ باشند، بلکه باید قابل اعتماد نیز باشند تا در تجزیه و تحلیل آن به ارزش دست یافت. کیفیت داده‌های ضبط شده می‌تواند بسیار متفاوت باشد و بر تجزیه و تحلیل دقیق تأثیر بگذارد.

ارزش اطلاعاتی که می‌توان با پردازش و تجزیه و تحلیل مجموعه داده‌های بزرگ به دست آورد. ارزش را نیز می‌توان با ارزیابی سایر کیفیت‌های کلان داده اندازه‌گیری کرد.

تغییرپذیری

ویرایش

ویژگی تغییر فرمت‌ها، ساختار یا منابع داده‌های بزرگ. مه‌داده می‌تواند شامل داده‌های ساختاریافته، بدون ساختار یا ترکیبی از داده‌های ساختاریافته و بدون ساختار باشد. تجزیه و تحلیل مه‌داده ممکن است داده‌های خام را از چندین منبع ادغام کند. پردازش داده‌های خام ممکن است شامل تبدیل داده‌های بدون ساختار به داده‌های ساختار یافته نیز باشد.

کاربردها

ویرایش

استفاده و پذیرش مه‌داده در فرآیندهای دولتی، امکان افزایش بازدهی را از نظر هزینه، بهره‌وری و نوآوری امکان‌پذیر می‌کند،[۲۱] اما بدون نقص نیست. تجزیه و تحلیل داده‌ها اغلب نیاز به همکاری بخش‌های متعددی از دولت دارد. یک سازمان دولتی رایج که از داده‌های بزرگ استفاده می‌کند، آژانس امنیت ملی آمریکا (NSA) است که فعالیت‌های اینترنت را به‌طور مداوم در جستجوی الگوهای بالقوه فعالیت‌های مشکوک یا غیرقانونی که ممکن است سیستم آنها دریافت کند، رصد می‌کند.

توسعه بین‌المللی

ویرایش

تحقیقات در مورد استفاده مؤثر از فناوری‌های اطلاعات و ارتباطات برای توسعه نشان می‌دهد که فناوری داده‌های بزرگ می‌تواند سهم مهمی داشته باشد اما همچنین چالش‌های منحصربه‌فردی را برای توسعه بین‌المللی ایجاد کند. پیشرفت‌ها در تجزیه و تحلیل مه‌داده‌ها فرصت‌های مقرون به صرفه را برای بهبود تصمیم‌گیری در زمینه‌های توسعه حیاتی مانند مراقبت‌های بهداشتی، اشتغال، بهره‌وری اقتصادی، جرم و جنایت، امنیت و بلایای طبیعی و مدیریت منابع ارائه می‌دهد.

دارایی و امور مالی

ویرایش

مه‌داده‌ها به سرعت در امور مالی برای سرعت بخشیدن به پردازش و ارائه استنباط‌های بهتر و آگاهانه تر، هم در داخل و هم برای مشتریان موسسات مالی به کار گرفته می‌شوند.[۲۲] کاربردهای مالی مه‌داده عبارتند از: تصمیم‌گیری در مورد سرمایه‌گذاری و معاملات (پردازش حجم داده‌های قیمتی موجود، دفترهای سفارش محدود، داده‌های اقتصادی و موارد دیگر، به‌طور همزمان)، مدیریت پورتفولیو (بهینه‌سازی بیش از یک مجموعه بزرگ از ابزارهای مالی، به‌طور بالقوه) را شامل می‌شود. انتخاب شده از طبقات مختلف دارایی)، مدیریت ریسک (رتبه‌بندی اعتبار بر اساس اطلاعات گسترده)، و هر جنبه دیگری که در آن ورودی داده‌ها زیاد است.[۲۳]

بهداشت

ویرایش

تجزیه و تحلیل مه‌داده‌ها در مراقبت‌های بهداشتی با ارائه پزشکی شخصی و تجزیه و تحلیل تجویزی، مداخله ریسک بالینی و تجزیه و تحلیل پیش‌بینی، کاهش تنوع ضایعات و مراقبت، گزارش خودکار داده‌های داخلی و خارجی بیمار، اصطلاحات پزشکی استاندارد و ثبت بیماران مورد استفاده قرار گرفته است.

مه‌داده در تحقیقات بهداشتی به ویژه از نظر تحقیقات زیست پزشکی اکتشافی امیدوارکننده است، زیرا تجزیه و تحلیل مبتنی بر داده می‌تواند سریعتر از تحقیقات فرضیه محور به جلو حرکت کند.[۲۴]

جستارهای وابسته

ویرایش

منابع

ویرایش
  1. ماهنامه دیده‌بان فناوری. «مقدمه‌ای بر بزرگ داده ها». بایگانی‌شده از اصلی در ۲۷ اوت ۲۰۱۶. دریافت‌شده در ۲۴ ژوئیه ۲۰۱۶.
  2. http://isna.ir/news/94100200756/تازه-ترین-واژه-های-مصوب-فرهنگستان
  3. Breur, Tom (July 2016). "Statistical Power Analysis and the contemporary "crisis" in social sciences". Journal of Marketing Analytics. London, England: Palgrave Macmillan. 4 (2–3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318.
  4. Mahdavi-Damghani, Babak (2019). Data-Driven Models & Mathematical Finance: Apposition or Opposition? (DPhil thesis). Oxford, England: University of Oxford. p. 21. SSRN 3521933.
  5. "The 5 V's of big data". Watson Health Perspectives (به انگلیسی). 2016-09-17. Archived from the original on 18 January 2021. Retrieved 2021-01-20.
  6. Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data for Creating and Capturing Value in the Digitalized Environment: Unpacking the Effects of Volume, Variety, and Veracity on Firm Performance*". Journal of Product Innovation Management (به انگلیسی). 38 (1): 49–67. doi:10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
  7. boyd, dana; Crawford, Kate (21 September 2011). "Six Provocations for Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431. S2CID 148610111. Archived from the original on 28 February 2020. Retrieved 12 July 2019.
  8. Hellerstein, Joe (9 November 2008). "Parallel Programming in the Age of Big Data". Gigaom Blog. Archived from the original on 7 October 2012. Retrieved 21 April 2010.
  9. Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: The Stories Behind Elegant Data Solutions. O'Reilly Media. p. 257. ISBN 978-0-596-15711-1. Archived from the original on 12 May 2016. Retrieved 31 December 2015.
  10. Jacobs, A. (6 July 2009). "The Pathologies of Big Data". ACMQueue. Archived from the original on 8 December 2015. Retrieved 21 April 2010.
  11. Magoulas, Roger; Lorica, Ben (February 2009). "Introduction to Big Data". Release 2.0. Sebastopol CA: O'Reilly Media (11). Archived from the original on 2 November 2021. Retrieved 26 February 2021.
  12. John R. Mashey (25 April 1998). "Big Data … and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Archived (PDF) from the original on 12 October 2016. Retrieved 28 September 2016.
  13. Steve Lohr (1 February 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Archived from the original on 6 March 2016. Retrieved 28 September 2016.
  14. Snijders, C.; Matzat, U.; Reips, U. -D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5. Archived from the original on 23 November 2019. Retrieved 13 April 2013.
  15. Dedić, N.; Stanier, C. (2017). "Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery". Innovations in Enterprise Information Systems Management and Engineering. Lecture Notes in Business Information Processing. Vol. 285. Berlin; Heidelberg: Springer International Publishing. pp. 114–122. doi:10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archived from the original on 27 November 2020. Retrieved 7 September 2019.
  16. Everts, Sarah (2016). "Information Overload". Distillations. Vol. 2, no. 2. pp. 26–33. Archived from the original on 3 April 2019. Retrieved 22 March 2018.
  17. Ibrahim; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, Nor; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "big data" on cloud computing: Review and open research issues". Information Systems. 47: 98–115. doi:10.1016/j.is.2014.07.006. S2CID 205488005.
  18. Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS). pp. 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  19. Kitchin, Rob; McArdle, Gavin (17 February 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  20. Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  21. "The Government and big data: Use, problems and potential". Computerworld. 21 March 2012. Archived from the original on 15 September 2016. Retrieved 12 September 2016.
  22. Aldridge, Irene (2016). Real-Time Risk: What Investors Should Know about FinTech, High-Frequency Trading, and Flash Crashes. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
  23. Aldridge, Irene (2021). Big data science in finance. Marco Avellaneda. Hoboken, New Jersey. ISBN 978-1-119-60297-2. OCLC 1184122216.
  24. Copeland, CS (Jul–Aug 2017). "Data Driving Discovery" (PDF). Healthcare Journal of New Orleans: 22–27. Archived (PDF) from the original on 5 December 2019. Retrieved 5 December 2019.