پایگاه داده تحلیلی

(تغییرمسیر از انبار داده)

پایگاه داده تحلیلی (به انگلیسی: Data warehouse) یک بانک اطلاعاتی بزرگ می‌باشد که از طریق آن کلیه داده‌های حال و گذشته یک سازمان جهت انجام عملیات گزارش‌گیری و آنالیز در دسترس مدیران قرار می‌گیرد. پایگاه داده تحلیلی که برخی آن را انبار داده می‌خوانند، نقش مهمی در تصمیم‌گیری مدیران کمپانی برای تعیین یک استراتژی موفق دارد. پایگاه داده نقش محوری در سامانه‌های هوش تجاری در سازمان‌ها ایفا می‌کنند.

بعضی از داده‌ها به منظور پردازش بیشتر به یک فضای عملیاتی کوچکتر operational data store وارد می‌شوند.

مراحل عملیاتی پایگاه داده تحلیلی

ویرایش

در حال حاضر دو رویکرد کلی در روند پردازش داده‌ها در پایگاه‌های داده تحلیلی وجود دارد:[۱]

  • ETL مخفف Extract-Transformation-Load که رویکرد سه لایه دارد که به ترتیب Integration ,Staging و Presentation نام دارد. در این رویکرد، داده‌ها قبل از فراخوانی به پایگاه داده تحلیلی، ساختار مناسب پیدا می‌کنند و سپس ذخیره می‌شوند.
  • ELT مخفف Extract-Load-Transformation که بدون توجه به روال سه لایه ETL، داده‌ها را مستقیماً به پایگاه داده‌های تحلیلی فراخوانی می‌کند و تغییر ساختار داده‌ها با توجه به نیاز انجام و در جداول جدید ذخیره می‌شود.

فراخوانی داده‌ها از منابع

ویرایش

داده‌های خام از منابع اطلاعاتی مختلفی جمع‌آوری شده و در لایه staging وارد می‌شوند. منبع داده خام می‌تواند یک سیستم ERP، پایگاه داده یک برنامه کاربردی یا یک فایل Excel باشد. در اصل، یک پایگاه داده تحلیلی باید امکان دسترسی و پردازش انواع منابع داده اعم از ساخت‌یافته (مانند پایگاه‌های داده)، نیمه-ساخت‌یافته (مانند فایل‌های Excel) یا غیر ساخت‌یافته (مانند فایل‌های متنی یا صفحات اینترنتی) را داشته باشد.

ایجاد یکپارچگی بین داده‌های وارد شده به پایگاه دادهٔ تحلیلی در دومین لایه یعنی integration انجام می‌شود. به عنوان مثال حذف رکوردهای تکراری یا نرمال‌سازی داده‌ها.

در لایه Presentation داده‌ها در دسترس کاربران قرار می‌گیرد. نرم‌افزارهای تهیه گزارش مانند Cognos ,Business Object ,SAP با دسترسی به این لایه می‌توانند اطلاعات مورد نیاز مدیران و تحلیلگران را استخراج و در قالب گزارش یا Dashboard عرضه نمایند.

در لایه Presentation می‌تواند چندین داده‌گاه وجود داشته باشد.

مزایا

ویرایش

انبارهای داده مزایای بسیاری را برای کسب و کارها فراهم می کنند. برخی از رایج ترین مزایا عبارتند از:

مخزنی متمرکز و پایدار از حجم انبوه داده های تاریخی
ویرایش

یکی از مزایای اصلی این انبارها، فراهم کردن مخزنی پایدار و متمرکز برای مقادیر زیادی از داده های تاریخی است. در اینجا، مقادیر زیادی از داده های تاریخی که از منابع مختلفی گردآوری شده اند، در یک محیط مرکزی جمع آوری و ذخیره می شوند. این امر به کاربران کمک می کند تا به راحتی به داده های تاریخی دسترسی پیدا کنند، آنها را با داده های جدید ترکیب کنند و تحلیل های دقیق تری را انجام دهند. همچنین، این انبار داده ها به شرکت ها کمک می کند تا داده های تاریخی را در یک محیط پایدار و پایدار نگهداری کنند و از دسترسی به داده های از دست رفته جلوگیری کنند.

بهبود فرآیندهای کسب و کار و تصمیم‌گیری با بینش عملی
ویرایش

استفاده از انبار داده ها به کاربران در تصمیم گیری هایی که بر اساس داده گرفته می‌شود، کمک می کند. در واقع، این انبارها برای تحلیل داده های تاریخی و پیش‌بینی آینده به کار می‌روند و به تصمیم گیری های بهتر و دقیق تر کمک می کنند.

با استفاده از انبار داده ها، کسب و کارها قادر خواهند بود تا به صورت بهتری تحلیل کنند و در نتیجه، درآمد و سود بیشتری به‌دست آورند. به عنوان مثال، این انبارها به کاربران کمک می کنند تا الگوهای بازار را شناسایی کنند و با استفاده از آنها، استراتژی های موفقی را برای کسب و کار ایجاد کنند.

بهبود کیفیت داده‌ها
ویرایش

استفاده از انبار داده ها به شرکت ها کمک می‌کند تا داده ها را تمیز و مرتب کنند و به روز نگه دارند. این انبارها برای این منظور طراحی شده اند تا اطمینان حاصل شود که داده ها دقیق و مورد اعتماد هستند.

افزایش عملکرد و قابلیت‌های BI با استفاده از منابع متعدد
ویرایش

انبار داده ها به کاربران اجازه می‌دهد تا داده های تاریخی را با داده های جدید ترکیب کنند و دسترسی به داده هایی که در منابع مختلف در دسترس هستند را داشته باشند. با شناسایی الگوهایی که در داده های ترکیبی وجود دارند، کاربران می‌توانند تحلیل هایی را انجام دهند که از داده های تنها در یک سیستم تولید نمی‌شوند. به عنوان مثال، شرکت هایی که در کشور های مختلف فعالیت دارند، ممکن است در داده های مختلف ذخیره شده باشند. با استفاده از انبار داده، کاربران می‌توانند به طور موثری از داده های این منابع استفاده کنند و به تحلیل های دقیق تری دسترسی پیدا کنند.

دسترسی به داده های تاریخی در کل کسب و کار
ویرایش

یک انبار داده به کاربران کمک می‌کند تا به داده های تاریخی، از جمله اطلاعات مربوط به مشتریان، فروش و مالی، دسترسی پیدا کنند. این دسترسی به داده های تاریخی به کاربران اجازه می‌دهد تا بهترین تصمیمات را برای کسب و کار خود بگیرند. با داشتن دسترسی به این داده ها، کاربران می‌توانند تحلیل های دقیق تری از عملکردر کسب و کار خود داشته باشند و از آنها برای ارتقای کیفیت و بهبود کارایی کسب و کار استفاده کنند.

معایب

ویرایش

همچنین برای پایگاه‌داده‌های تحلیلی معایبی ذکر می‌شود که باعث می‌شود برای برخی کاربردها مناسب نباشند:

نامناسب بودن برای داده‌های بدون ساختار
ویرایش

استفاده از Data Warehouse برای داده هایی که ساختار ندارند، به دلیل عدم توانایی در ترجمه این داده ها به یک فرمت ساختاری قابل استفاده، ممکن است نامناسب باشد. به عنوان مثال، داده هایی که در فرمت نوشتاری بدون ساختار مانند متن، پیام های رسانه اجتماعی و پست های وبلاگی قرار دارند، به دشواری قابل استفاده در انبار داده ها هستند.

گیج‌کننده بودن ایجاد و اجرا
ویرایش

ایجاد و اجرای یک انبار داده نیازمند توانایی های فنی و مدیریتی قوی است. این فرآیند شامل طراحی، ساخت و پیاده سازی انبار داده، انتقال داده ها، مدیریت امنیت و پشتیبانی است. این فرآیند ممکن است برای بسیاری از کاربران نامطمئن و گیج کننده باشد.

انبار داده می تواند نسبتاً سریع منسوخ شود
ویرایش

پیشرفت تکنولوژی و تغییرات در نیازهای کسب و کار ممکن است باعث شود که انبار داده ها در مدت زمان کوتاهی منسوخ شوند و نیاز به ایجاد یک انبار داده جدید باشد. این مسئله ممکن است باعث هدر رفت منابع و هزینه برای سازمان شود.

دشواری ایجاد تغییرات در انواع داده‌ها و محدوده‌ها، طرحواره منبع داده، نمایه ها و پرس و جوها
ویرایش

تغییرات در داده‌ها و ساختار آنها ممکن است منجر به ایجاد مشکلاتی در انبار داده شود. برای اصلاح این مشکلات، نیاز به تغییرات در طرحواره منبع داده، نمایه ها و پرس و جوها وجود دارد، که این کار ممکن است بسیار پیچیده و زمانبر باشد.

پیچیدگی بالا برای کاربران عادی
ویرایش

در استفاده از انبار داده ها، نیاز به آموزش کاربران در مورد روش های استفاده از آنها و نحوه دسترسی به داده ها وجود دارد. برای بسیاری از کاربران، این فرآیند پیچیده و دشوار به نظر می رسد.

افزایش دامنه پروژه و پیچیدگی به مرور زمان
ویرایش

یکی از مشکلاتی که ممکن است در انبار داده ها به وجود آید، افزایش دامنه پروژه است. با توجه به اینکه نیازهای کسب و کار همیشه در حال تغییر هستند، این ممکن است به معنی نیاز به افزایش دامنه پروژه، اضافه کردن داده های جدید و به روز رسانی انبار داده باشد. این مسئله ممکن است باعث بروز مشکلات فنی و مشکلات مدیریتی شود.

وجود قوانین و محدودیت‌های تجاری
ویرایش

کاربران انبار داده ها ممکن است قوانین تجاری خود را برای استفاده از داده های ذخیره شده در انبار داده ها ایجاد کنند. این ممکن است به دلیل نیاز به حفاظت از حریم خصوصی داده ها یا تضمین دقت و صحت داده ها باشد. اما این مسئله ممکن است باعث محدودیت در استفاده از داده ها و ایجاد مشکلاتی برای کاربران شود.

هزینه‌های هنگفت برای سازمان‌ها جهت آموزش و پیاده‌سازی
ویرایش

ایجاد یک انبار داده و استفاده از آن نیازمند منابع زیادی است. این شامل هزینه های سخت افزاری، نرم افزاری، آموزشی و پیاده سازی است. به علاوه، برای رسیدن به بهره وری بالا، نیاز به پشتیبانی و بروزرسانی مداوم انبار داده ها و ابزارهای مورد استفاده است. هزینه های این نوع پروژه ها ممکن است برای برخی سازمان ها بسیار بالا باشد و ممکن است به دلیل محدودیت منابع، ایجاد یک انبار داده برای آنها امکان پذیر نباشد.

معماری

ویرایش

یک انبار داده یک سیستم پیچیده است که داده‌های تاریخی و تجمعی را که برای پیش‌بینی، گزارش‌دهی و تحلیل داده‌ها استفاده می‌شود، ذخیره می‌کند. این شامل جمع‌آوری، پاکسازی و تبدیل داده‌ها از جریان‌های داده مختلف و بارگذاری آنها در جداول واقعیت/ابعادی است.

سه رویکرد کلی برای ساخت یک انبار داده وجود دارد:

معماری یک لایه انبار داده

ویرایش
 
معماری یک‌لایه پایگاه داده تحلیلی

معماری یک لایه یک رویکرد کمتر مورد استفاده است. هدف اصلی داشتن چنین معماری، حذف تکراری بودن با کاهش مقدار داده‌های ذخیره شده است. معایب اصلی آن این است که این معماری شامل یک اجزایی نیست که پردازش تحلیلی و تراکنشی را از یکدیگر جدا کند.

معماری دو لایه انبار داده

ویرایش
 
معماری دولایه پایگاه داده تحلیلی

معماری دو لایه شامل یک فضای مرحله قرارگیری برای تمام منابع داده قبل از لایه انبار داده است. با افزودن فضای مرحله قرارگیری بین منابع و مخزن ذخیره، تضمین می‌شود که تمام داده‌هایی که به انبار داده بارگذاری می‌شوند، پاکسازی و در قالب مناسبی قرار دارند.

معماری سه لایه انبار داده

ویرایش
 
معماری سه‌لایه پایگاه داده تحلیلی

رویکرد سه لایه، پراکنده‌ترین معماری استفاده شده برای سیستم‌های انبار داده است که اصولاً شامل سه لایه است:

  • لایه پایینی: پایگاه داده انبار داده است که جایی است که داده‌های پاکسازی شده و تبدیل شده بارگذاری می‌شوند.
  • لایه میانی: لایه برنامه است که نمای انتزاعی از پایگاه داده را ارائه می‌دهد. آن داده‌ها را به گونه‌ای ترتیب می‌دهد که برای تحلیل مناسب باشد. این با استفاده از سرور OLAP انجام می‌شود که با استفاده از مدل ROLAP یا MOLAP پیاده‌سازی شده است.
  • لایه بالایی: جایی است که کاربر به داده دسترسی و با آن تعامل می‌کند. این لایه نشان‌دهنده لایه مشتری جلویی است. می‌توان از ابزارهای گزارش‌دهی، پرس و جو، تحلیل یا ابزارهای استخراج داده استفاده کرد.

دیگر انواع معماری برای انبار داده

ویرایش

معماری رابطه‌ای

ویرایش

این معماری مرسوم‌ترین نوع معماری است و داده‌ها را در دیتابیس‌های relational ذخیره می‌کند. در این دیتابیس‌ها داده به کمک جداول ذخیره‌سازی می‌شود و کلیدها، جداول را به یکدیگر متصل می‌کنند. از مزایای این نوع انبارداده توانایی پاسخگویی به درخواست‌های پیچیده کاربران است. از طرف دیگر،‌ از داده‌های بدون ساختار پشتیبانی نمی‌کند و برای داده‌های با حجم بالا سرعت خوبی ندارد.

معماری بر پایه فضای ابری

ویرایش

انبارهای داده بر پایه فضای ابری به طور افزایشی محبوب شده‌اند، زیرا مقیاس‌پذیری و انعطاف پذیری را ارائه می دهند. آن‌ها معمولاً بر روی یک پلتفرم ابری مانند خدمات وب آمازون میزبانی می شوند. این معماری به سازمان ها این امکان را می دهد که بسته به نیاز خود مقیاس خود را افزایش یا کاهش دهند و فقط برای منابعی که استفاده می کنند هزینه پرداخت کنند.

معماری ترکیبی (hybrid)

ویرایش

انبارهای داده ترکیبی عناصر معماری رابطه‌ای و بر پایه فضای ابری را ترکیب می کنند. آن‌ها معمولاً شامل ذخیره داده‌های با دسترسی مکرر در یک انبار داده داخلی رابطه‌ای هستند، در حالی که داده‌هایی که کمتر به آن‌ها دسترسی دارند در یک انبار داده بر پایه فضای ابری ذخیره می‌شوند. این معماری به سازمان‌ها اجازه می دهد تا عملکرد و مقرون به صرفه بودن را متعادل کنند.

معماری دریاچه داده (Data Lake)

ویرایش

معماری دریاچه داده شامل ذخیره‌سازی داده‌ها در یک ساختار مسطح، بدون طرح واره از پیش تعریف شده است. این معماری برای ذخیره داده های بدون ساختار، مانند داده های پست های رسانه های اجتماعی بهینه شده است. دریاچه های داده را می توان به عنوان منبع داده برای انبارهای داده استفاده کرد و به سازمان ها اجازه می دهد حجم زیادی از داده های بدون ساختار را ذخیره و تجزیه و تحلیل کنند. این‌کار پیچیدگی پیاده‌سازی را برای مهندسان داده کاهش می‌دهد.

معماری فدرال (Federated)

ویرایش

انبارهای داده فدرال شامل ذخیره داده ها در مکان های فیزیکی متعدد و ارائه یک نمای یکپارچه از داده ها از طریق یک لایه انبار داده مجازی است. این معماری به سازمان ها اجازه می دهد تا داده ها را از منابع متعدد، بدون نیاز به جابجایی فیزیکی داده ها، یکپارچه کنند. همچنین نیازی به همسان بودن تمام داده‌ها وجود ندارد.

 
طرحواره ستاره‌ای پایگاه داده تحلیلی

در این طرحواره که مختص معماری رابطه‌ای است، یک مدل داده چند بعدی وجود دارد که برای سازماندهی داده ها در پایگاه داده استفاده می شود تا درک و تجزیه و تحلیل آسان باشد. طرحواره های ستاره ای را می توان در انبارهای داده، پایگاه های داده، داده ها و ابزارهای دیگر اعمال کرد. طراحی این طرحواره برای پرس و جو از مجموعه داده های بزرگ بهینه شده است.

 
طرحواره دانه برفی پایگاه داده تحلیلی

طرح واره دانه های برف یک مدل داده چند بعدی است که بسط طرح ستاره ای است. در آن جداول ابعاد به جداول کوچکتر تقسیم می شوند. طرحواره‌های دانه‌ی برف معمولاً برای هوش تجاری و گزارش‌دهی در انبارهای داده OLAP، داده‌ها و پایگاه‌های داده رابطه‌ای استفاده می‌شوند. در طرح دانه های برف، مهندسان جداول  را به زیر بعد های منطقی تقسیم می کنند. این امر مدل داده را پیچیده تر می کند، اما کار با آن برای تحلیلگران، به ویژه برای انواع داده های خاص، می تواند آسان تر باشد.

طرحواره کهکشانی یا fact constellation

ویرایش
 
طرحواره کهکشانی پایگاه داده تحلیلی

این طرحواره گروهی از جداول واقعی متفاوت است که تعداد کمی جداول ابعادی مشابه دارند. می‌توان آن را به‌عنوان گروهی از طرح‌واره‌های ستاره‌ای متعدد نشان داد و بنابراین، طرحواره کهکشان نیز نامیده می‌شود.

ابزارها

ویرایش

ابزارهای ذخیره سازی داده های زیادی در بازار موجود است. در اینجا برخی از برجسته ترین آنها آورده شده است:

کاربردها

ویرایش

مراقبت های بهداشتی

ویرایش

در دهه های اخیر، صنعت مراقبت های بهداشتی به طور فزاینده ای به تجزیه و تحلیل داده ها برای بهبود مراقبت از بیمار، مدیریت کارآمد عملیات و رسیدن به اهداف تجاری روی آورده است. در نتیجه، دانشمندان داده، تحلیلگران داده و متخصصان انفورماتیک سلامت برای ذخیره و پردازش مقادیر زیادی از داده‌های مربوط به مراقبت‌های بهداشتی به انبارهای داده تکیه می‌کنند. نتایج این تحقیقات نشان می‌دهد که استفاده از ابزارها به معنای عملکرد کاری در سطح بالینی و مدیریتی، بهبود نسبت هزینه به فایده و کاهش ضریب زمان در عملکرد نیروی کار در خدمات سلامت است. بنابراین، این مطالعه امیدوار است که به پیشرفت تکنولوژیکی هوش محاسباتی در مراقبت های بهداشتی کمک کند.[۲]

بانکداری

ویرایش

یک صورت‌حساب بانکی را باز کنید و احتمالاً فهرست بلندبالایی از تراکنش‌ها را خواهید دید: برداشت‌های خودپرداز، خرید، پرداخت صورت‌حساب، و غیره. در حالی که فهرست تراکنش‌ها ممکن است برای یک فرد طولانی باشد، اما برای میلیون‌ها مشتری که هر روز به خدمات بانکی متکی هستند، بسیار طولانی‌تر است. بانک‌ها به‌جای نشستن بر روی این انبوه داده‌ها، از انبارهای داده برای ذخیره و تجزیه و تحلیل این داده‌ها برای توسعه بینش‌های عملی و بهبود خدمات خود استفاده می‌کنند.[۱]

افزایش درآمد خرده فروشان

ویرایش

یکی از نگرانی‌های اصلی خرده‌فروشان میزان خرید کالا و ذخیره کالا است. امروزه، انبارهای داده به خرده‌فروشان اجازه می‌دهند تا مقادیر زیادی از اطلاعات مربوط به معاملات و مشتریان را ذخیره کنند تا به آنها در بهبود تصمیم گیری در هنگام خرید موجودی برای فروش به بازار هدف کمک کند. از طرفی خرده فروشان می توانند از انبارهای داده برای ذخیره و تجزیه و تحلیل داده های مشتری، مانند تاریخچه خرید، جمعیت شناسی و ترجیحات استفاده کنند. با تقسیم‌بندی مشتریان بر اساس این داده‌ها، خرده‌فروشان می‌توانند کمپین‌های بازاریابی هدفمند و توصیه‌های محصولی را ایجاد کنند که احتمالاً باعث جذب مجدد مشتریان شده و فروش را افزایش می‌دهند.

منابع

ویرایش
  1. "Data warehouse". Wikipedia (به انگلیسی). 2020-05-31.
  2. Gomes, Myller Augusto Santos; Kovaleski, João Luiz; Pagani, Regina Negri; da Silva, Vander Luiz; Pasquini, Tatiana Cabreira de Severo (2023-01). "Transforming healthcare with big data analytics: technologies, techniques and prospects". Journal of Medical Engineering & Technology. 47 (1): 1–11. doi:10.1080/03091902.2022.2096133. ISSN 1464-522X. PMID 35852400. {{cite journal}}: Check date values in: |date= (help)