رفع خطای PSOD در ESXi

رفع خطای PSOD در ESXi

راهنمای جامع: رفع خطای PSOD در ESXi (صفحه بنفش)

این مقاله، راهنمای جامع و کامل برای رفع خطای PSOD در ESXi (صفحه بنفش) است. بالا نیامدن esxi خطای ارور صفحه بنفش esxi یا (Purple Screen of Death – PSOD) بی‌شک، ترسناک‌ترین کابوس هر ادمین VMware است. این خطا به معنای توقف کامل هاست (Hypervisor) و خاموش شدن ناگهانی تمام ماشین‌های مجازی (VM) روی آن است. برخلاف خطاهای نرم‌افزاری ساده، PSOD نشان‌دهنده یک مشکل بحرانی در سطح هسته (VMkernel) است که نیاز به تحلیل فوری دارد.

 

PSOD در ESXi چیست و چرا رخ می‌دهد؟

صفحه بنفش (PSOD) معادل «صفحه آبی مرگ» (Blue Screen) در ویندوز است، اما برای هایپروایزر ESXi. زمانی که VMkernel با یک خطای بحرانی مواجه می‌شود که نمی‌تواند آن را مدیریت کند (Exception)، برای جلوگیری از آسیب بیشتر به داده‌ها و سخت‌افزار، فوراً تمام عملیات را متوقف کرده و اطلاعات عیب‌یابی را روی صفحه‌ای بنفش نمایش می‌دهد.

علل اصلی که منجر به رفع خطای PSOD در ESXi (صفحه بنفش) می‌شوند، به دو دسته تقسیم می‌شوند:

  • ۱. مشکلات سخت‌افزاری (Hardware Faults):
    • خرابی حافظه RAM (شایع‌ترین علت سخت‌افزاری)
    • مشکلات پردازنده (CPU) یا Overheat شدن آن
    • خرابی کارت شبکه (NIC) یا کنترلر HBA
  • ۲. مشکلات نرم‌افزاری (Software/Driver Issues):
    • **درایورهای باگ‌دار:** یک درایور کارت شبکه یا HBA که به درستی نوشته نشده یا با نسخه ESXi شما سازگار نیست (شایع‌ترین علت نرم‌افزاری).
    • **باگ در فیرمور (Firmware):** ناهماهنگی بین فیرمور سخت‌افزار (مثل فیرمور سرور HP/Dell) و درایور ESXi.
    • **باگ در خود ESXi:** مشکلات داخلی در کدهای VMkernel که معمولاً در پچ‌های بعدی برطرف می‌شوند.

بنابراین، رفع خطای PSOD در ESXi (صفحه بنفش) معمولاً یک فرآیند عیب‌یابی برای پیدا کردن قطعه سخت‌افزاری یا درایور نرم‌افزاری مشکل‌ساز است.

راهنمای قدم به قدم: رفع مشکل صفحه بنفش ESXi پس از وقوع

اگر با ارور صفحه بنفش esxi مواجه شدید، آرامش خود را حفظ کنید. تمام VMها خاموش شده‌اند و هاست متوقف است. این مراحل را دنبال کنید:

قدم ۱: اطلاعات را از صفحه بخوانید (قبل از ری‌استارت!)

قبل از دکمه ری‌استارت، با گوشی خود از صفحه عکس بگیرید. اطلاعات روی صفحه بنفش، کلید طلایی عیب‌یابی است. به دنبال این موارد بگردید:

  • علت خطا: معمولاً با @PTE، @PF یا #GP شروع می‌شود. (مثلاً `Exception 14, Page Fault`).
  • ماژول مشکل‌ساز: در خطوط پایین‌تر، ممکن است نام یک درایور (مثلاً `E1000.co` یا `qlnativefc.so`) را ببینید. این مستقیماً به شما می‌گوید که کدام درایور باعث مشکل شده است.
  • آدرس فایل دامپ (Core Dump): صفحه به شما می‌گوید که آیا فایل دامپ با موفقیت ذخیره شده است یا خیر.

قدم ۲: راه‌اندازی مجدد هاست

هاست را به صورت سخت‌افزاری (با دکمه پاور یا از طریق iLO/iDRAC) ری‌استارت کنید. پس از بالا آمدن هاست، vCenter (اگر دارید) باید به صورت خودکار VMها را (اگر HA فعال باشد) روی هاست‌های دیگر روشن کند. اگر نه، باید VMها را دستی روشن کنید.

قدم ۳: بررسی لاگ‌ها و فایل دامپ (Core Dump)

این مهم‌ترین بخش در رفع خطای PSOD در ESXi (صفحه بنفش) است. پس از بالا آمدن هاست:

  1. از طریق SSH به هاست ESXi متصل شوید.
  2. به مسیر /var/log/ بروید و فایل vmkernel.log را بررسی کنید. لاگ‌های مربوط به لحظات قبل از کرش بسیار ارزشمند هستند.
  3. به دنبال فایل دامپ بگردید. فایل دامپ معمولاً در یکی از Datastoreها ذخیره می‌شود.
  4. اگر فایل دامپ (با پسوند .dumpfile یا .zdump) را پیدا کردید، باید آن را برای تحلیل بیشتر کپی کنید.

راه‌حل‌های دائمی: پیشگیری از وقوع مجدد PSOD

پیدا کردن علت PSOD و یا بالا نیامدن esxi یک چیز است، اما جلوگیری از تکرار آن، هدف اصلی است. فرآیند رفع خطای PSOD در ESXi (صفحه بنفش) به معنای پایدارسازی دائمی هاست است.

  • ۱. بررسی لیست سازگاری (HCL) – مهم‌ترین اقدام:
    اکثر PSOD ها به دلیل ناهماهنگی درایور و فیرمور است. به
    لیست سازگاری سخت‌افزار VMware (HCL)
    مراجعه کنید. مطمئن شوید که مدل سرور شما، کارت شبکه، و کنترلر HBA دقیقاً با نسخه‌ی ESXi که نصب کرده‌اید، سازگار هستند.
  • ۲. آپدیت همه‌جانبه (Drivers & Firmware):
    مطمئن شوید که **فیرمور** سرور (Firmware/BIOS)، فیرمور کارت‌های شبکه و HBA، و همچنین **درایور** همان قطعات در *داخل ESXi*، همگی به‌روز هستند. (توجه: گاهی اوقات آپدیت کردن، مشکل را ایجاد می‌کند و نیاز به Downgrade به نسخه پایدار دارید).
  • ۳. پچ کردن ESXi:
    هاست ESXi خود را به آخرین پچ و بیلدنامبر منتشر شده برای آن نسخه آپدیت کنید. بسیاری از PSOD ها باگ‌های شناخته‌شده‌ای هستند که VMware در پچ‌های بعدی آن‌ها را برطرف کرده است.
  • ۴. تست سخت‌افزار:
    اگر مشکوک به خرابی سخت‌افزار (مخصوصاً RAM) هستید، هاست را در حالت Maintenance قرار دهید و ابزارهای عیب‌یابی سخت‌افزاری (مانند Memtest86) را اجرا کنید.

سوالات متداول (FAQ) درباره خطای صفحه بنفش

آیا PSOD همیشه به معنای خرابی سخت‌افزار است؟

خیر. در واقع، امروزه اکثر PSOD ها به دلیل مشکلات نرم‌افزاری (درایورهای بد یا باگ‌های فیرمور) رخ می‌دهند تا خرابی فیزیکی سخت‌افزار. فرآیند رفع خطای PSOD در ESXi (صفحه بنفش)  معمولاً با آپدیت نرم‌افزاری حل می‌شود.

چگونه فایل دامپ (Core Dump) را بخوانیم؟

خواندن فایل دامپ (VMkernel Dump) بخش مهمی از رفع خطای PSOD در ESXi (صفحه بنفش) به صورت تخصصی است. شما می‌توانید از ابزار `esxcli` در خود ESXi برای گرفتن یک خلاصه‌ی متنی از آن استفاده کنید، یا فایل را (که معمولاً حجیم است) به پشتیبانی VMware (اگر دارید) یا یک متخصص تحلیل دامپ بسپارید.

تفاوت PSOD با قطع شدن هاست از vCenter چیست؟

این دو کاملاً متفاوتند. در PSOD، هاست ESXi کاملاً کرش کرده  و متوقف شده است. اما در
مقاله قطع شدن هاست از vCenter
(که در مقاله بعدی به آن می‌پردازیم)، هاست روشن و فعال است، اما فقط ارتباط مدیریتی آن با vCenter قطع شده است.

آیا می‌توان از PSOD جلوگیری کرد؟

بله، تا حد زیادی. با استفاده انحصاری از سخت‌افزارهای موجود در لیست HCL، به‌روز نگه داشتن مداوم فیرمورها و درایورها، و پچ کردن منظم ESXi، می‌توانید شانس وقوع PSOD را به شدت کاهش دهید.

 

برای تحلیل و رفع خطای PSOD در ESXi (صفحه بنفش) به کمک نیاز دارید؟

رفع مشکل صفحه بنفش esxi یک فرآیند تخصصی و حیاتی است که نیازمند تحلیل دقیق لاگ‌ها و فایل‌های دامپ است. اگر با این خطای بحرانی مواجه‌اید و نیاز به بازگرداندن سریع پایداری به دیتاسنتر خود دارید، با تیم متخصص ما در NetHelper تماس بگیرید. ما در تحلیل علل PSOD و پایدارسازی زیرساخت VMware شما تخصص داریم.

برای مطالعه بیشتر در خصوص رفه مشکلات esxi و vcenter اینجا کلیک فرمایید.

برای پشتیبانی شبکه می توانید اینجا کلیک فرمایید.

🧭 درخواست مشاوره تخصصی VMware

تماس: 09358804745

برچسب ها :

دیدگاهتان را بنویسید