رفع خطای PSOD در ESXi
راهنمای جامع: رفع خطای PSOD در ESXi (صفحه بنفش)
این مقاله، راهنمای جامع و کامل برای رفع خطای PSOD در ESXi (صفحه بنفش) است. بالا نیامدن esxi خطای ارور صفحه بنفش esxi یا (Purple Screen of Death – PSOD) بیشک، ترسناکترین کابوس هر ادمین VMware است. این خطا به معنای توقف کامل هاست (Hypervisor) و خاموش شدن ناگهانی تمام ماشینهای مجازی (VM) روی آن است. برخلاف خطاهای نرمافزاری ساده، PSOD نشاندهنده یک مشکل بحرانی در سطح هسته (VMkernel) است که نیاز به تحلیل فوری دارد.
PSOD در ESXi چیست و چرا رخ میدهد؟
صفحه بنفش (PSOD) معادل «صفحه آبی مرگ» (Blue Screen) در ویندوز است، اما برای هایپروایزر ESXi. زمانی که VMkernel با یک خطای بحرانی مواجه میشود که نمیتواند آن را مدیریت کند (Exception)، برای جلوگیری از آسیب بیشتر به دادهها و سختافزار، فوراً تمام عملیات را متوقف کرده و اطلاعات عیبیابی را روی صفحهای بنفش نمایش میدهد.
علل اصلی که منجر به رفع خطای PSOD در ESXi (صفحه بنفش) میشوند، به دو دسته تقسیم میشوند:
- ۱. مشکلات سختافزاری (Hardware Faults):
- خرابی حافظه RAM (شایعترین علت سختافزاری)
- مشکلات پردازنده (CPU) یا Overheat شدن آن
- خرابی کارت شبکه (NIC) یا کنترلر HBA
- ۲. مشکلات نرمافزاری (Software/Driver Issues):
- **درایورهای باگدار:** یک درایور کارت شبکه یا HBA که به درستی نوشته نشده یا با نسخه ESXi شما سازگار نیست (شایعترین علت نرمافزاری).
- **باگ در فیرمور (Firmware):** ناهماهنگی بین فیرمور سختافزار (مثل فیرمور سرور HP/Dell) و درایور ESXi.
- **باگ در خود ESXi:** مشکلات داخلی در کدهای VMkernel که معمولاً در پچهای بعدی برطرف میشوند.
بنابراین، رفع خطای PSOD در ESXi (صفحه بنفش) معمولاً یک فرآیند عیبیابی برای پیدا کردن قطعه سختافزاری یا درایور نرمافزاری مشکلساز است.
راهنمای قدم به قدم: رفع مشکل صفحه بنفش ESXi پس از وقوع
اگر با ارور صفحه بنفش esxi مواجه شدید، آرامش خود را حفظ کنید. تمام VMها خاموش شدهاند و هاست متوقف است. این مراحل را دنبال کنید:
قدم ۱: اطلاعات را از صفحه بخوانید (قبل از ریاستارت!)
قبل از دکمه ریاستارت، با گوشی خود از صفحه عکس بگیرید. اطلاعات روی صفحه بنفش، کلید طلایی عیبیابی است. به دنبال این موارد بگردید:
- علت خطا: معمولاً با @PTE، @PF یا #GP شروع میشود. (مثلاً `Exception 14, Page Fault`).
- ماژول مشکلساز: در خطوط پایینتر، ممکن است نام یک درایور (مثلاً `E1000.co` یا `qlnativefc.so`) را ببینید. این مستقیماً به شما میگوید که کدام درایور باعث مشکل شده است.
- آدرس فایل دامپ (Core Dump): صفحه به شما میگوید که آیا فایل دامپ با موفقیت ذخیره شده است یا خیر.
قدم ۲: راهاندازی مجدد هاست
هاست را به صورت سختافزاری (با دکمه پاور یا از طریق iLO/iDRAC) ریاستارت کنید. پس از بالا آمدن هاست، vCenter (اگر دارید) باید به صورت خودکار VMها را (اگر HA فعال باشد) روی هاستهای دیگر روشن کند. اگر نه، باید VMها را دستی روشن کنید.
قدم ۳: بررسی لاگها و فایل دامپ (Core Dump)
این مهمترین بخش در رفع خطای PSOD در ESXi (صفحه بنفش) است. پس از بالا آمدن هاست:
- از طریق SSH به هاست ESXi متصل شوید.
- به مسیر
/var/log/بروید و فایلvmkernel.logرا بررسی کنید. لاگهای مربوط به لحظات قبل از کرش بسیار ارزشمند هستند. - به دنبال فایل دامپ بگردید. فایل دامپ معمولاً در یکی از Datastoreها ذخیره میشود.
- اگر فایل دامپ (با پسوند
.dumpfileیا.zdump) را پیدا کردید، باید آن را برای تحلیل بیشتر کپی کنید.
راهحلهای دائمی: پیشگیری از وقوع مجدد PSOD
پیدا کردن علت PSOD و یا بالا نیامدن esxi یک چیز است، اما جلوگیری از تکرار آن، هدف اصلی است. فرآیند رفع خطای PSOD در ESXi (صفحه بنفش) به معنای پایدارسازی دائمی هاست است.
- ۱. بررسی لیست سازگاری (HCL) – مهمترین اقدام:
اکثر PSOD ها به دلیل ناهماهنگی درایور و فیرمور است. به
لیست سازگاری سختافزار VMware (HCL)
مراجعه کنید. مطمئن شوید که مدل سرور شما، کارت شبکه، و کنترلر HBA دقیقاً با نسخهی ESXi که نصب کردهاید، سازگار هستند. - ۲. آپدیت همهجانبه (Drivers & Firmware):
مطمئن شوید که **فیرمور** سرور (Firmware/BIOS)، فیرمور کارتهای شبکه و HBA، و همچنین **درایور** همان قطعات در *داخل ESXi*، همگی بهروز هستند. (توجه: گاهی اوقات آپدیت کردن، مشکل را ایجاد میکند و نیاز به Downgrade به نسخه پایدار دارید). - ۳. پچ کردن ESXi:
هاست ESXi خود را به آخرین پچ و بیلدنامبر منتشر شده برای آن نسخه آپدیت کنید. بسیاری از PSOD ها باگهای شناختهشدهای هستند که VMware در پچهای بعدی آنها را برطرف کرده است. - ۴. تست سختافزار:
اگر مشکوک به خرابی سختافزار (مخصوصاً RAM) هستید، هاست را در حالت Maintenance قرار دهید و ابزارهای عیبیابی سختافزاری (مانند Memtest86) را اجرا کنید.
سوالات متداول (FAQ) درباره خطای صفحه بنفش
آیا PSOD همیشه به معنای خرابی سختافزار است؟
خیر. در واقع، امروزه اکثر PSOD ها به دلیل مشکلات نرمافزاری (درایورهای بد یا باگهای فیرمور) رخ میدهند تا خرابی فیزیکی سختافزار. فرآیند رفع خطای PSOD در ESXi (صفحه بنفش) معمولاً با آپدیت نرمافزاری حل میشود.
چگونه فایل دامپ (Core Dump) را بخوانیم؟
خواندن فایل دامپ (VMkernel Dump) بخش مهمی از رفع خطای PSOD در ESXi (صفحه بنفش) به صورت تخصصی است. شما میتوانید از ابزار `esxcli` در خود ESXi برای گرفتن یک خلاصهی متنی از آن استفاده کنید، یا فایل را (که معمولاً حجیم است) به پشتیبانی VMware (اگر دارید) یا یک متخصص تحلیل دامپ بسپارید.
تفاوت PSOD با قطع شدن هاست از vCenter چیست؟
این دو کاملاً متفاوتند. در PSOD، هاست ESXi کاملاً کرش کرده و متوقف شده است. اما در
مقاله قطع شدن هاست از vCenter
(که در مقاله بعدی به آن میپردازیم)، هاست روشن و فعال است، اما فقط ارتباط مدیریتی آن با vCenter قطع شده است.
آیا میتوان از PSOD جلوگیری کرد؟
بله، تا حد زیادی. با استفاده انحصاری از سختافزارهای موجود در لیست HCL، بهروز نگه داشتن مداوم فیرمورها و درایورها، و پچ کردن منظم ESXi، میتوانید شانس وقوع PSOD را به شدت کاهش دهید.
برای تحلیل و رفع خطای PSOD در ESXi (صفحه بنفش) به کمک نیاز دارید؟
رفع مشکل صفحه بنفش esxi یک فرآیند تخصصی و حیاتی است که نیازمند تحلیل دقیق لاگها و فایلهای دامپ است. اگر با این خطای بحرانی مواجهاید و نیاز به بازگرداندن سریع پایداری به دیتاسنتر خود دارید، با تیم متخصص ما در NetHelper تماس بگیرید. ما در تحلیل علل PSOD و پایدارسازی زیرساخت VMware شما تخصص داریم.
برای مطالعه بیشتر در خصوص رفه مشکلات esxi و vcenter اینجا کلیک فرمایید.
برای پشتیبانی شبکه می توانید اینجا کلیک فرمایید.
تماس: 09358804745
