رفع خطای ESXi
آیا ESXi شما در خطر است؟ نگاهی به کابوسهای مجازیسازی
رفع خطای ESXi در دیتاسنترهای مدرن رفع خطای ESXi ، سرویس VMware ESXi به عنوان قلب تپنده شبکه عمل میکند. اما زمانی که این قلب تپنده به تپش میافتد، یعنی با یک بحران جدی روبرو هستید. بسیاری از مدیران شبکه در ایران، به محض مواجهه با اولین نشانههای اختلال، سعی میکنند با جستجوی سریع در اینترنت و اجرای دستورات CLI، مشکل را به صورت “آنی” حل کنند؛ غافل از اینکه این محیط، محیطی نیست که بتوان با آزمون و خطا در آن پیش رفت. یک دستور اشتباه در محیط ESXi میتواند منجر به **Data Corruption** (فساد دادهها) یا حذف دائمی دیسکهای مجازی شود.
۱. سناریوی وحشتناک: صفحه بنفش مرگ (PSOD)
تصور کنید صبح وارد دیتاسنتر میشوید و با یک صفحه بنفش روبرو هستید. PSOD فقط یک خطای ساده نیست؛ این یعنی هسته سیستمعامل (Kernel) متوقف شده است. بسیاری تصور میکنند با ریستارت کردن سرور مشکل حل میشود، اما حقیقت این است که ریستارت کردن در زمان بروز PSOD، میتواند آخرین شانس شما برای بازگردانی فایلهای لاگ و درک علت اصلی را از بین ببرد. آیا میدانید چرا سرور شما ناگهان این وضعیت را پیدا کرد؟ آیا مشکل از یک درایور ناسازگار در سطح Firmware است یا یک ایراد فیزیکی در ماژول حافظه RAM؟ اجرای دستورات بازیابی بدون شناخت دقیق از ساختار VMFS، میتواند منجر به نابودی کل محتوای استوریج شود.
۲. کلاف سردرگم: Host Disconnected
وقتی سرور شما از vCenter جدا میشود، ارتباط بین دنیای مدیریت و دنیای اجرا قطع شده است. ادمینهای تازهکار بلافاصله سراغ دستورات Restart سرویسهای مدیریتی میروند. اما آیا بررسی کردهاید که آیا این قطعی به دلیل حملات امنیتی در لایه شبکه است؟ یا نشت حافظه (Memory Leak) در یکی از ماشینهای مجازی که باعث شده پروسسهای مدیریتی خفه شوند؟ اگر اشتباهاً سرویس vpxa را در شرایط ناپایدار ریست کنید، ممکن است دیتابیس vCenter شما دچار ناهماهنگی (Inconsistency) شده و دیگر نتوانید وضعیت ماشینهای مجازی را به درستی مشاهده کنید. این یعنی سناریوی “تاریک شدن” دیتاسنتر.
۳. لبه پرتگاه: Datastore Inaccessible
مشکلات Datastore در ESXi بدترین کابوس هر مدیر شبکهاست مخصوصا خطای : “Datastore Inaccessible”. یعنی دادههای شرکت شما دیگر در دسترس نیست. این خطا معمولاً نتیجه بروز وضعیتی به نام APD (All Paths Down) است. اکثر ادمینها سعی میکنند با Rescan کردن استوریج، آن را برگردانند. اما یک خطای کوچک در انتخاب Host یا نادیده گرفتن وضعیت وضعیت استوریج، میتواند به جای بازیابی، باعث **Permanent Device Loss** (از دست رفتن دائمی مسیر) شود. در این شرایط، حتی ریکاوری تخصصی هم ممکن است نتواند دادههای شما را بازگرداند.
چرا بازی با دستورات CLI ریسک بزرگی است؟
بسیاری از دستورات esxcli که برای رفع خطای ESXi برای مشکلات Datastore در ESXi در فرومهای خارجی پیدا میکنید، برای نسخههای خاص ESXi هستند. اجرای آنها روی نسخهای که شما دارید، بدون اطمینان از Compatibility، میتواند باعث خرابی فایلسیستم شود. آیا حاضرید ریسک کنید و تمام پروژههای سازمانتان را به خاطر یک دستور “کپی-پیست” شده در معرض نابودی قرار دهید؟
راهنمای جامع عیبیابی و رفع خطاهای بحرانی در VMware ESXi
در محیطهای دیتاسنتر، پایداری سرورهای ESXi ستون اصلی زیرساخت شبکه است. با این حال، به دلیل پیچیدگیهای سختافزاری و نرمافزاری، گاهی اوقات ادمینهای شبکه با خطاهای غیرمنتظرهای مواجه میشوند. در این راهنمای تخصصی، به بررسی ریشهای و روشهای عملیاتی رفع ۳ خطای بحرانی میپردازیم.
۱. صفحه بنفش مرگ (PSOD)؛ بحران هسته سیستمعامل
راه حل صفحه بنفش مرگ سرور (Purple Screen of Death) زمانی رخ میدهد که هسته (VMkernel) سیستمعامل ESXi با یک خطای غیرقابل بازگشت مواجه شود. این خطا معمولاً به دلیل ناپایداری سختافزار یا درایورهای ناسازگار است.
چه اقداماتی انجام دهیم؟
- تحلیل کد خطا: کدهای ثبت شده در صفحه بنفش (مانند
LINT1/NMI) را یادداشت کنید. این کدها منبع اصلی خطا را نشان میدهند. - بررسی قطعات سختافزاری: احتمال خرابی RAM یا گرمای بیش از حد CPU را بررسی کنید.
- بروزرسانی درایورها: بسیاری از PSODها ناشی از درایورهای قدیمی کارت شبکه (NIC) یا کنترلرهای Storage هستند. اطمینان حاصل کنید که از آخرین نسخه درایورهای منطبق با HCL (VMware Compatibility Guide) استفاده میکنید.
- خروج از BIOS/UEFI: تنظیمات مربوط به Power Management در BIOS را به حالت High Performance تغییر دهید.
۲. خطای Host Disconnected؛ قطع ارتباط با vCenter
رفع مشکل Host Disconnected زمانی که vCenter Server قادر به دریافت ضربان (Heartbeat) از ESXi نباشد، سرور را در حالت Disconnected نمایش میدهد. این مشکل اغلب به دلیل پر شدن صف پردازش Agentهاست.
مراحل گامبهگام رفع خطا:
- ریست Agentها: از کنسول مستقیم (DCUI) یا از طریق SSH دستور زیر را اجرا کنید:
/etc/init.d/hostd restart && /etc/init.d/vpxa restart - بررسی فایروال: اطمینان حاصل کنید پورتهای 902 و 443 بین vCenter و Host مسدود نیستند.
- بررسی فضای دیسک: اگر لاگهای سرور (در مسیر
/var/log/) باعث پر شدن پارتیشنهای اصلی شده باشند، سرویس مدیریت ESXi پاسخگو نخواهد بود.
۳. خطای Datastore Inaccessible؛ مدیریت وضعیت APD و PDL
این خطا به این معنی است که سرور ESXi مسیر ارتباطی خود را با استوریج (SAN/NAS) از دست داده است. این وضعیت میتواند باعث هنگ کردن ماشینهای مجازی (VMs) شود.
استراتژی بازیابی:
- بررسی وضعیت پورتها: از دستور
esxcli storage core path listبرای شناسایی مسیرهای قطع شده (Dead Paths) استفاده کنید. - Rescan عملیاتی: پس از اطمینان از سلامت کابلهای فیبر یا سوییچهای شبکه، از طریق vCenter گزینه Rescan Storage را روی تمامی Hostهای کلاستر اجرا کنید.
- نکته ادمینی: اگر با مشکل APD (All Paths Down) مواجه شدید، قبل از ریبوت کردن Host، مطمئن شوید که دسترسی به استوریج مجدداً برقرار شده است، در غیر این صورت احتمال فساد دادهها در فایلسیستم VMFS وجود دارد.
آیا خطای پیچیدهای در شبکه دارید؟
عیبیابی زیرساختهای مجازیسازی و رفع خطای ESXi نیاز به تخصص و تجربه میدانی دارد. برای جلوگیری از دست دادن دادهها، از مشاوره تخصصی ما استفاده کنید.
همچنین برای پشتیبانی شبکه اینجا کلیک فرمایید
پرسشهای متداول
۱. چرا نباید به محض مشاهده خطای ESXi، سرور را ریستارت کرد؟
ریستارت کردن در شرایط ناپایدار، شانس دسترسی به لاگهای سیستمی را از بین میبرد. همچنین اگر سرور در حال نوشتن داده باشد، ریستارت سختافزاری میتواند منجر به Data Corruption (فساد دادهها) در فایلسیستم VMFS شود که بازیابی آن بسیار پرهزینه است.
۲. آیا خطای Datastore Inaccessible به معنای سوختن هارد دیسکهاست؟
خیر. این خطا اغلب به دلیل مشکلات ارتباطی (در لایه فیبر یا شبکه) رخ میدهد. با این حال، تلاش برای “Rescan” بیمحابا یا اجرای دستورات غیراصولی، میتواند یک مشکل ارتباطی ساده را به یک خرابی دائمی دستگاه تبدیل کند.
۳. تفاوت Host Disconnected و Not Responding چیست؟
Disconnected معمولاً به دلیل مشکلات شبکه یا گواهینامه (Certificate) با vCenter است، در حالی که Not Responding اغلب نشاندهنده «هنگ کردن» سرویسهای مدیریتی به دلیل فشار بیش از حد به منابع (CPU/RAM) است.
۴. آیا کدهای دستوری (CLI) برای تمام نسخهها یکسان است؟
خیر! اجرای یک دستور نسخه قدیمی روی ورژن جدید، میتواند ساختار دیتابیس سرور شما را مختل کند. پیش از اجرای هر دستور، باید نسخه ESXi خود را کاملاً چک کنید.
۵. اگر با خطای PSOD (صفحه بنفش) روبرو شدیم، اولین قدم چیست؟
اولین قدم صبر و ثبت اطلاعات است. هرگز بدون یادداشت کردن کدهای خطا یا گرفتن عکس، سرور را ریست نکنید. کدی که روی صفحه بنفش میبینید، تنها سرنخ شما برای شناسایی قطعه معیوب (مثل رم یا درایور ناسازگار) است.
