رفع خطای APD در ESXi
آموزش رفع خطای APD در ESXi (لایه دیسک و استوریج)
بررسی جامع تداخلهای APD و PDL در VMware vSphere و راهکارهای عملیاتی ادمینهای شبکه
۱. تفاوت کلیدی و ریشهیابی خطای APD در مقابل PDL
خطای All Paths Down (APD) یک وضعیت ناپدید شدن ناگهانی و ناشناخته در زیرساخت ذخیرهسازی است؛ یعنی سرور ESXi متوجه قطع ارتباط فیبر یا کابل شبکه SAN میشود اما هنوز نمیداند این قطعی موقتی است یا هارد دیسکها کاملاً آسیب دیدهاند. در این حالت سیستمعامل برای بازگشت پثها منتظر میماند و وبکنسول فریز میشود. اما خطای Permanent Device Loss (PDL) زمانی صادر میشود که دستگاه ذخیرهساز (Storage Array) رسماً یک کد و سنسور SCSI به سرور میفرستد و اعلام میکند که این دایرکتوری یا LUN دیگر به صورت دائمی وجود ندارد یا از روی سوییچ مپ آن حذف (Unmapped) شده است. شناسایی دقیق این تفاوتها، اولین قدم در مانیتورینگ صحیح کلاستر دیتاسنتر شماست.
۲. تحلیل لاگها در VMkernel برای ردیابی خطا
وقتی سرور دچار این اختلال میشود، وبکنسول معمولاً از دسترس خارج میشود. در این حالت، ادمین شبکه باید از طریق SSH به سرور متصل شده و فایل لاگ سیستم را مانیتور کند. با بررسی فایل /var/log/vmkernel.log با خطاهای زیر مواجه میشوید که نشاندهنده بنبست در لایه دیسک است:
WARNING: StorageDevice: ... HBA Status: Built-in Command Timeout WARNING: NMP: nmp_IssueCommandToDevice: I/O to device has APD state ScsiDeviceIO: ... Device permanently unavailable (PDL status)
بررسی دقیق این لاگها به شما کمک میکند تا متوجه شوید آیا هاردها کاملاً از مدار خارج شدهاند یا اختلال مربوط به لایه سوییچینگ و پثهای فیبر چنل است.
۳. دستورات CLI برای شناسایی دستگاه و هاردها
برای پیدا کردن مشخصات فنی و وضعیت لایه دیسک و هاردها، ابتدا باید ابزار کنترل هسته ذخیرهسازی را مانیتور کنید تا فرآیند عیبیابی و رفع خطای APD در ESXi به درستی طی شود. با اجرای دستور زیر میتوانید وضعیت پثها و دیسکهای متصل به دستگاه را بررسی کنید:
این دستور شناسه یکتای هر دیسک (NAA ID) و وضعیت پثهای فعال یا مرده (Dead Paths) را به شما نشان میدهد تا متوجه شوید کدام پورت HBA دچار اختلال شده است.
۴. راهکار ساده: ریسکن آداپتر ذخیرهسازی
یک راهکار اولیه برای ادمین شبکه این است که پورتهای کارت HBA سرور را مجدداً وادار به اسکن کند تا دیسکهای گمشده بازیابی شوند. شما میتوانید با دستور زیر تمام آداپترها را مجدداً اسکن کنید:
توجه بسیار مهم ادمینی: این دستور تنها در صورتی مسیرها را زنده میکند که قطع فیزیکی برطرف شده باشد. اگر وضعیت خطای دیسک روی حالت ناپایدار قفل شده باشد، این فرآیند کاملاً فریز خواهد شد و شما نیازمند ابزارهای پیشرفتهتری نظیر کامندهای لایه Native Multipathing برای تغییر رولهای بومی هستید.
۵. خطرات اقدامات غیراصولی و از دست رفتن ماشینها
هشدار مهم! در فرآیند رفع خطای APD در ESXi، زدن دکمه Force Mount یا ریبوت ناگهانی سرور بدون قطع کردن ایمن دسترسیها، بزرگترین خطای عملیاتی است. اگر فرآیندهای ناپایدار دیسک را به زور متوقف کنید، فایلهای پیکربندی ماشینها با پسوند .vmx و هارد دیسکهای مجازی دیتابیس با پسوند .vmdk دچار تداخل شدید شده و اصطلاحاً Corrupt میشوند. بازگردانی هاردی که ساختار VMFS آن آسیب دیده، هزینههای فوقالعاده سنگینی برای سازمان دارد و ریسک نابودی ابدی دیتای شرکت را به همراه خواهد داشت.
برای پشتیبانی شبکه اینجا کلیک فرمایید
سوالات متداول در رفع خطای APD و PDL در ESXi
رایجترین ابهامات ادمینهای شبکه در مواجهه با خطاهای لایه دیسک و استوریج VMware:
چرا هنگام رخ دادن خطای APD، وبکنسول vCenter یا ESXi کاملاً فریز میشود؟
پاسخ: وقتی سیستم در وضعیت APD قرار میگیرد، هایپروایزر ESXi به طور مداوم و در بازههای زمانی کوتاه (Timeout) تلاش میکند تا با دیسک گمشده ارتباط برقرار کند. از آنجا که این کوریها در لایه هسته (Kernel) قفل میشوند، تمام فرآیندهای مدیریتی از جمله وبکنسول تا زمان مشخص شدن وضعیت پثها فریز خواهند شد.
اگر بعد از رفع مشکل فیزیکی کابل/سوییچ، دیسکها خودکار برنگشتند چه باید کرد؟
پاسخ: در وضعیت APD اگر پث فیزیکی زنده شود، ESXi معمولاً دیسک را برمیگرداند؛ اما اگر این اتفاق نیفتاد، باید از طریق دستور لینوکسی esxcli storage core adapter rescan --all ذخیرهساز را وادار به اسکن مجدد پورتها کنید.
تفاوت اصلی خطای APD و PDL در چیست؟
پاسخ: خطای APD یعنی مسیر ارتباطی قطع شده و ESXi بلاتکلیف است (احتمال بازگشت وجود دارد). اما خطای PDL یعنی استوریج رسماً به سرور پیام فرستاده که این LUN کاملاً حذف یا خراب شده و هیچ امیدی به بازگشت خودکار آن نیست.
آیا ریبوت ناگهانی سرور هنگام خطای دیسک خطرناک است؟
پاسخ: بله، فوقالعاده خطرناک است! اگر سرور را بدون Unmount کردن اصولی یا بدون کنترل لاگها ریستارت کنید، هدر دیتاسنتر و فایلهای حیاتی ماشینهای مجازی (مثل vmdk. و vmx.) آسیب جدی دیده و ممکن است کل اطلاعات یک دپارتمان برای همیشه نابود شود.
