رفع خطای APD در ESXi

رفع خطای APD در ESXi

آموزش رفع خطای APD در ESXi (لایه دیسک و استوریج)

بررسی جامع تداخل‌های APD و PDL در VMware vSphere و راهکارهای عملیاتی ادمین‌های شبکه

در زیرساخت‌های دیتاسنتر و مجازی‌سازی مبتنی بر پروداکشن, پایداری ارتباط میان هایپروایزر و ذخیره‌ساز ستون اصلی سرویس‌دهی سازمان است. ادمین‌های شبکه و متخصصین زیرساخت همواره به دنبال یک راهنمای عملیاتی برای رفع خطای APD در ESXi و خطای هم‌خانواده آن یعنی PDL (Permanent Device Loss) هستند. این ارورها زمانی رخ می‌دهند که سرور VMware دسترسی خود را به یک یا چند LUN بر روی استوریج‌های سازمانی (SAN/NAS) از دست می‌دهد. در این مقاله تخصصی به کالبدشکافی دستورات لینوکسی رفع این باگ سهمگین می‌پردازیم تا پایداری شبکه شما حفظ شود.

۱. تفاوت کلیدی و ریشه‌یابی خطای APD در مقابل PDL

خطای All Paths Down (APD) یک وضعیت ناپدید شدن ناگهانی و ناشناخته در زیرساخت ذخیره‌سازی است؛ یعنی سرور ESXi متوجه قطع ارتباط فیبر یا کابل شبکه SAN می‌شود اما هنوز نمی‌داند این قطعی موقتی است یا هارد دیسک‌ها کاملاً آسیب دیده‌اند. در این حالت سیستم‌عامل برای بازگشت پث‌ها منتظر می‌ماند و وب‌کنسول فریز می‌شود. اما خطای Permanent Device Loss (PDL) زمانی صادر می‌شود که دستگاه ذخیره‌ساز (Storage Array) رسماً یک کد و سنسور SCSI به سرور می‌فرستد و اعلام می‌کند که این دایرکتوری یا LUN دیگر به صورت دائمی وجود ندارد یا از روی سوییچ مپ آن حذف (Unmapped) شده است. شناسایی دقیق این تفاوت‌ها، اولین قدم در مانیتورینگ صحیح کلاستر دیتاسنتر شماست.

۲. تحلیل لاگ‌ها در VMkernel برای ردیابی خطا

وقتی سرور دچار این اختلال می‌شود، وب‌کنسول معمولاً از دسترس خارج می‌شود. در این حالت، ادمین شبکه باید از طریق SSH به سرور متصل شده و فایل لاگ سیستم را مانیتور کند. با بررسی فایل /var/log/vmkernel.log با خطاهای زیر مواجه می‌شوید که نشان‌دهنده بن‌بست در لایه دیسک است:

WARNING: StorageDevice: ... HBA Status: Built-in Command Timeout
WARNING: NMP: nmp_IssueCommandToDevice: I/O to device has APD state
ScsiDeviceIO: ... Device permanently unavailable (PDL status)

بررسی دقیق این لاگ‌ها به شما کمک می‌کند تا متوجه شوید آیا هاردها کاملاً از مدار خارج شده‌اند یا اختلال مربوط به لایه سوییچینگ و پث‌های فیبر چنل است.

۳. دستورات CLI برای شناسایی دستگاه و هاردها

برای پیدا کردن مشخصات فنی و وضعیت لایه دیسک و هاردها، ابتدا باید ابزار کنترل هسته ذخیره‌سازی را مانیتور کنید تا فرآیند عیب‌یابی و رفع خطای APD در ESXi به درستی طی شود. با اجرای دستور زیر می‌توانید وضعیت پث‌ها و دیسک‌های متصل به دستگاه را بررسی کنید:

esxcli storage core path list

این دستور شناسه یکتای هر دیسک (NAA ID) و وضعیت پث‌های فعال یا مرده (Dead Paths) را به شما نشان می‌دهد تا متوجه شوید کدام پورت HBA دچار اختلال شده است.

۴. راهکار ساده: ریسکن آداپتر ذخیره‌سازی

یک راهکار اولیه برای ادمین شبکه این است که پورت‌های کارت HBA سرور را مجدداً وادار به اسکن کند تا دیسک‌های گم‌شده بازیابی شوند. شما می‌توانید با دستور زیر تمام آداپترها را مجدداً اسکن کنید:

esxcli storage core adapter rescan –all

توجه بسیار مهم ادمینی: این دستور تنها در صورتی مسیرها را زنده می‌کند که قطع فیزیکی برطرف شده باشد. اگر وضعیت خطای دیسک روی حالت ناپایدار قفل شده باشد، این فرآیند کاملاً فریز خواهد شد و شما نیازمند ابزارهای پیشرفته‌تری نظیر کامندهای لایه Native Multipathing برای تغییر رول‌های بومی هستید.

۵. خطرات اقدامات غیراصولی و از دست رفتن ماشین‌ها

هشدار مهم! در فرآیند رفع خطای APD در ESXi، زدن دکمه Force Mount یا ریبوت ناگهانی سرور بدون قطع کردن ایمن دسترسی‌ها، بزرگ‌ترین خطای عملیاتی است. اگر فرآیندهای ناپایدار دیسک را به زور متوقف کنید، فایل‌های پیکربندی ماشین‌ها با پسوند .vmx و هارد دیسک‌های مجازی دیتابیس با پسوند .vmdk دچار تداخل شدید شده و اصطلاحاً Corrupt می‌شوند. بازگردانی هاردی که ساختار VMFS آن آسیب دیده، هزینه‌های فوق‌العاده سنگینی برای سازمان دارد و ریسک نابودی ابدی دیتای شرکت را به همراه خواهد داشت.

برای پشتیبانی شبکه اینجا کلیک فرمایید


سوالات متداول در رفع خطای APD و PDL در ESXi

رایج‌ترین ابهامات ادمین‌های شبکه در مواجهه با خطاهای لایه دیسک و استوریج VMware:

چرا هنگام رخ دادن خطای APD، وب‌کنسول vCenter یا ESXi کاملاً فریز می‌شود؟

پاسخ: وقتی سیستم در وضعیت APD قرار می‌گیرد، هایپروایزر ESXi به طور مداوم و در بازه‌های زمانی کوتاه (Timeout) تلاش می‌کند تا با دیسک گم‌شده ارتباط برقرار کند. از آنجا که این کوری‌ها در لایه هسته (Kernel) قفل می‌شوند، تمام فرآیندهای مدیریتی از جمله وب‌کنسول تا زمان مشخص شدن وضعیت پث‌ها فریز خواهند شد.

اگر بعد از رفع مشکل فیزیکی کابل/سوییچ، دیسک‌ها خودکار برنگشتند چه باید کرد؟

پاسخ: در وضعیت APD اگر پث فیزیکی زنده شود، ESXi معمولاً دیسک را برمی‌گرداند؛ اما اگر این اتفاق نیفتاد، باید از طریق دستور لینوکسی esxcli storage core adapter rescan --all ذخیره‌ساز را وادار به اسکن مجدد پورت‌ها کنید.

تفاوت اصلی خطای APD و PDL در چیست؟

پاسخ: خطای APD یعنی مسیر ارتباطی قطع شده و ESXi بلاتکلیف است (احتمال بازگشت وجود دارد). اما خطای PDL یعنی استوریج رسماً به سرور پیام فرستاده که این LUN کاملاً حذف یا خراب شده و هیچ امیدی به بازگشت خودکار آن نیست.

آیا ریبوت ناگهانی سرور هنگام خطای دیسک خطرناک است؟

پاسخ: بله، فوق‌العاده خطرناک است! اگر سرور را بدون Unmount کردن اصولی یا بدون کنترل لاگ‌ها ریستارت کنید، هدر دیتاسنتر و فایل‌های حیاتی ماشین‌های مجازی (مثل vmdk. و vmx.) آسیب جدی دیده و ممکن است کل اطلاعات یک دپارتمان برای همیشه نابود شود.

برچسب ها :

دیدگاهتان را بنویسید