رفع خطای ESXi

رفع خطای ESXi

آیا ESXi شما در خطر است؟ نگاهی به کابوس‌های مجازی‌سازی

رفع خطای ESXi در دیتاسنترهای مدرن رفع خطای ESXi ، سرویس VMware ESXi به عنوان قلب تپنده شبکه عمل می‌کند. اما زمانی که این قلب تپنده به تپش می‌افتد، یعنی با یک بحران جدی روبرو هستید. بسیاری از مدیران شبکه در ایران، به محض مواجهه با اولین نشانه‌های اختلال، سعی می‌کنند با جستجوی سریع در اینترنت و اجرای دستورات CLI، مشکل را به صورت “آنی” حل کنند؛ غافل از اینکه این محیط، محیطی نیست که بتوان با آزمون و خطا در آن پیش رفت. یک دستور اشتباه در محیط ESXi می‌تواند منجر به **Data Corruption** (فساد داده‌ها) یا حذف دائمی دیسک‌های مجازی شود.

۱. سناریوی وحشتناک: صفحه بنفش مرگ (PSOD)

تصور کنید صبح وارد دیتاسنتر می‌شوید و با یک صفحه بنفش روبرو هستید. PSOD فقط یک خطای ساده نیست؛ این یعنی هسته سیستم‌عامل (Kernel) متوقف شده است. بسیاری تصور می‌کنند با ریستارت کردن سرور مشکل حل می‌شود، اما حقیقت این است که ریستارت کردن در زمان بروز PSOD، می‌تواند آخرین شانس شما برای بازگردانی فایل‌های لاگ و درک علت اصلی را از بین ببرد. آیا می‌دانید چرا سرور شما ناگهان این وضعیت را پیدا کرد؟ آیا مشکل از یک درایور ناسازگار در سطح Firmware است یا یک ایراد فیزیکی در ماژول حافظه RAM؟ اجرای دستورات بازیابی بدون شناخت دقیق از ساختار VMFS، می‌تواند منجر به نابودی کل محتوای استوریج شود.

۲. کلاف سردرگم: Host Disconnected

وقتی سرور شما از vCenter جدا می‌شود، ارتباط بین دنیای مدیریت و دنیای اجرا قطع شده است. ادمین‌های تازه‌کار بلافاصله سراغ دستورات Restart سرویس‌های مدیریتی می‌روند. اما آیا بررسی کرده‌اید که آیا این قطعی به دلیل حملات امنیتی در لایه شبکه است؟ یا نشت حافظه (Memory Leak) در یکی از ماشین‌های مجازی که باعث شده پروسس‌های مدیریتی خفه شوند؟ اگر اشتباهاً سرویس vpxa را در شرایط ناپایدار ریست کنید، ممکن است دیتابیس vCenter شما دچار ناهماهنگی (Inconsistency) شده و دیگر نتوانید وضعیت ماشین‌های مجازی را به درستی مشاهده کنید. این یعنی سناریوی “تاریک شدن” دیتاسنتر.

۳. لبه پرتگاه: Datastore Inaccessible

مشکلات Datastore در ESXi بدترین کابوس هر مدیر شبکهاست مخصوصا خطای : “Datastore Inaccessible”. یعنی داده‌های شرکت شما دیگر در دسترس نیست. این خطا معمولاً نتیجه بروز وضعیتی به نام APD (All Paths Down) است. اکثر ادمین‌ها سعی می‌کنند با Rescan کردن استوریج، آن را برگردانند. اما یک خطای کوچک در انتخاب Host یا نادیده گرفتن وضعیت وضعیت استوریج، می‌تواند به جای بازیابی، باعث **Permanent Device Loss** (از دست رفتن دائمی مسیر) شود. در این شرایط، حتی ریکاوری تخصصی هم ممکن است نتواند داده‌های شما را بازگرداند.

چرا بازی با دستورات CLI ریسک بزرگی است؟

بسیاری از دستورات esxcli که  برای رفع خطای ESXi برای مشکلات Datastore در ESXi در فروم‌های خارجی پیدا می‌کنید، برای نسخه‌های خاص ESXi هستند. اجرای آن‌ها روی نسخه‌ای که شما دارید، بدون اطمینان از Compatibility، می‌تواند باعث خرابی فایل‌سیستم شود. آیا حاضرید ریسک کنید و تمام پروژه‌های سازمانتان را به خاطر یک دستور “کپی-پیست” شده در معرض نابودی قرار دهید؟

راهنمای جامع عیب‌یابی و رفع خطاهای بحرانی در VMware ESXi

در محیط‌های دیتاسنتر، پایداری سرورهای ESXi ستون اصلی زیرساخت شبکه است. با این حال، به دلیل پیچیدگی‌های سخت‌افزاری و نرم‌افزاری، گاهی اوقات ادمین‌های شبکه با خطاهای غیرمنتظره‌ای مواجه می‌شوند. در این راهنمای تخصصی، به بررسی ریشه‌ای و روش‌های عملیاتی رفع ۳ خطای بحرانی می‌پردازیم.

۱. صفحه بنفش مرگ (PSOD)؛ بحران هسته سیستم‌عامل

راه حل صفحه بنفش مرگ سرور  (Purple Screen of Death) زمانی رخ می‌دهد که هسته (VMkernel) سیستم‌عامل ESXi با یک خطای غیرقابل بازگشت مواجه شود. این خطا معمولاً به دلیل ناپایداری سخت‌افزار یا درایورهای ناسازگار است.

چه اقداماتی انجام دهیم؟

  • تحلیل کد خطا: کدهای ثبت شده در صفحه بنفش (مانند LINT1/NMI) را یادداشت کنید. این کدها منبع اصلی خطا را نشان می‌دهند.
  • بررسی قطعات سخت‌افزاری: احتمال خرابی RAM یا گرمای بیش از حد CPU را بررسی کنید.
  • بروزرسانی درایورها: بسیاری از PSODها ناشی از درایورهای قدیمی کارت شبکه (NIC) یا کنترلرهای Storage هستند. اطمینان حاصل کنید که از آخرین نسخه درایورهای منطبق با HCL (VMware Compatibility Guide) استفاده می‌کنید.
  • خروج از BIOS/UEFI: تنظیمات مربوط به Power Management در BIOS را به حالت High Performance تغییر دهید.

۲. خطای Host Disconnected؛ قطع ارتباط با vCenter

رفع مشکل Host Disconnected زمانی که vCenter Server قادر به دریافت ضربان (Heartbeat) از ESXi نباشد، سرور را در حالت Disconnected نمایش می‌دهد. این مشکل اغلب به دلیل پر شدن صف پردازش Agentهاست.

مراحل گام‌به‌گام رفع خطا:

  1. ریست Agentها: از کنسول مستقیم (DCUI) یا از طریق SSH دستور زیر را اجرا کنید:
    /etc/init.d/hostd restart && /etc/init.d/vpxa restart
  2. بررسی فایروال: اطمینان حاصل کنید پورت‌های 902 و 443 بین vCenter و Host مسدود نیستند.
  3. بررسی فضای دیسک: اگر لاگ‌های سرور (در مسیر /var/log/) باعث پر شدن پارتیشن‌های اصلی شده باشند، سرویس مدیریت ESXi پاسخگو نخواهد بود.

۳. خطای Datastore Inaccessible؛ مدیریت وضعیت APD و PDL

این خطا به این معنی است که سرور ESXi مسیر ارتباطی خود را با استوریج (SAN/NAS) از دست داده است. این وضعیت می‌تواند باعث هنگ کردن ماشین‌های مجازی (VMs) شود.

استراتژی بازیابی:

  • بررسی وضعیت پورت‌ها: از دستور esxcli storage core path list برای شناسایی مسیرهای قطع شده (Dead Paths) استفاده کنید.
  • Rescan عملیاتی: پس از اطمینان از سلامت کابل‌های فیبر یا سوییچ‌های شبکه، از طریق vCenter گزینه Rescan Storage را روی تمامی Hostهای کلاستر اجرا کنید.
  • نکته ادمینی: اگر با مشکل APD (All Paths Down) مواجه شدید، قبل از ریبوت کردن Host، مطمئن شوید که دسترسی به استوریج مجدداً برقرار شده است، در غیر این صورت احتمال فساد داده‌ها در فایل‌سیستم VMFS وجود دارد.

آیا خطای پیچیده‌ای در شبکه دارید؟

عیب‌یابی زیرساخت‌های مجازی‌سازی و رفع خطای ESXi نیاز به تخصص و تجربه میدانی دارد. برای جلوگیری از دست دادن داده‌ها، از مشاوره تخصصی ما استفاده کنید.

همچنین برای پشتیبانی شبکه اینجا کلیک فرمایید

پرسش‌های متداول

۱. چرا نباید به محض مشاهده خطای ESXi، سرور را ریستارت کرد؟

ریستارت کردن در شرایط ناپایدار، شانس دسترسی به لاگ‌های سیستمی را از بین می‌برد. همچنین اگر سرور در حال نوشتن داده باشد، ریستارت سخت‌افزاری می‌تواند منجر به Data Corruption (فساد داده‌ها) در فایل‌سیستم VMFS شود که بازیابی آن بسیار پرهزینه است.

۲. آیا خطای Datastore Inaccessible به معنای سوختن هارد دیسک‌هاست؟

خیر. این خطا اغلب به دلیل مشکلات ارتباطی (در لایه فیبر یا شبکه) رخ می‌دهد. با این حال، تلاش برای “Rescan” بی‌محابا یا اجرای دستورات غیراصولی، می‌تواند یک مشکل ارتباطی ساده را به یک خرابی دائمی دستگاه تبدیل کند.

۳. تفاوت Host Disconnected و Not Responding چیست؟

Disconnected معمولاً به دلیل مشکلات شبکه یا گواهی‌نامه (Certificate) با vCenter است، در حالی که Not Responding اغلب نشان‌دهنده «هنگ کردن» سرویس‌های مدیریتی به دلیل فشار بیش از حد به منابع (CPU/RAM) است.

۴. آیا کدهای دستوری (CLI) برای تمام نسخه‌ها یکسان است؟

خیر! اجرای یک دستور نسخه قدیمی روی ورژن جدید، می‌تواند ساختار دیتابیس سرور شما را مختل کند. پیش از اجرای هر دستور، باید نسخه ESXi خود را کاملاً چک کنید.

۵. اگر با خطای PSOD (صفحه بنفش) روبرو شدیم، اولین قدم چیست؟

اولین قدم صبر و ثبت اطلاعات است. هرگز بدون یادداشت کردن کدهای خطا یا گرفتن عکس، سرور را ریست نکنید. کدی که روی صفحه بنفش می‌بینید، تنها سرنخ شما برای شناسایی قطعه معیوب (مثل رم یا درایور ناسازگار) است.

 

برچسب ها :

دیدگاهتان را بنویسید