類別不平衡處理技術解析(1)　AI強化晶圓良率分析

2026-05-27

誠君

本篇探討如何運用 AI 技術提升矽晶圓良率。針對製程中常見的「資料不平衡」問題，介紹了以 SMOTE 合成樣本擴展特徵空間，並結合 SHAP 解釋模型、發掘缺陷關鍵因素的方法。同時闡述了晶圓圖與等級分類在品管上的應用，並提出結合多個 CNN 模型的「深度整合特徵框架（DEFF）」，透過軟投票機制大幅提升缺陷檢測的準確率與穩定性。

矽晶圓(Silicon Wafer)製程是材料科學、精密工程和無塵室技術的奇妙結合。在先進的半導體製程中，缺陷(Defect)是不可避免的，但嚴重的缺陷會影響晶片的功能。為了減少這種情況的發生，業界已開發出許多先進的方法，對缺陷進行分類、檢測和改善。其中，包含運用AI技術來提高矽晶圓良率的方法。

不平衡的資料

不平衡的資料(Imbalanced Data)是指在二分或多分類問題中，一個類別的樣本數顯著低於其他類別的樣本數。這是在醫療診斷、防詐檢測、故障偵測、信用評分……等多個領域中常見的問題。其中，少數類別可能包含了重要資訊，模型必須能精確地檢測到這些重要信息。在這些情況下，簡單地預測多數類別的模型，雖然準確度高，但因為樣本分布不平衡，無法識別少數類別，而少數類別通常是更重要的類別。例如：當一個資料集的類別分布不平衡時，99%的樣本是正常的，只有1%的樣本有缺陷，很可能推論出此資料集內的全部資料都是正常的結果。忽略了這個1%的少數類別，會造成所謂的假陰性(False Negative)，如圖1。模型的「準確度」雖高，但實用性卻很低。對矽晶圓良率而言，假陰性的成本非常高，所以必須盡量避免。

圖1　二元混淆矩陣中的真陽性(TP)、真陰性(TN)、假陽性(FP)、假陰性(FN)

式子(1)是召回率的數學式。真陽性(TP)是模型正確地將少數類別樣本預測為少數類別。假陰性(FN)是模型錯誤地將少數類別樣本預測為多數類，即模型遺漏了少數類別樣本。召回率代表的是在所有實際為少數類別的樣本中，模型能成功識別出來的比例。它關注的是模型可以正確地找出少數類別的能力。召回率100％代表模型不會遺漏任何少數類樣本。對於少數類別而言，召回率(Recall)是一個非常重要的評估指標。高召回率表示模型能夠有效地找出或召回絕大多數屬於少數類別的樣本，即使它可能因此將一些多數類樣本誤報為少數類別，導致精確率下降。在晶圓缺陷檢測的應用中，通常會非常重視提高召回率，以確保盡可能不遺漏實際存在的缺陷，即使這可能會有一些誤報(假陽性)，需要額外的人工複檢。

類別不平衡處理(Class Imbalance Handling)是運用各種技術，如表1，在一個資料集(Dataset)內，平衡各類別分布，解決資料不平衡的問題。其目標是增加少數類別的代表性，或減少多數類別的代表性，這取決於所採用的技術。

SMOTE與SHAP應用

合成少數類別過採樣技術(Synthetic Minority Over-Sampling Technique, SMOTE)與Shapley加法解釋法(SHapley Additive exPlanations, SHAP)分別用於資料平衡處理與模型解釋，兩者雖然用途不同，但可搭配使用。如下說明：

SMOTE

適用於分類問題中，少數類別被忽略、模型偏向多數類別的情況。它對少數類別進行合成樣本生成，而不是簡單地複製現有樣本。它會在少數類別的樣本之間，根據特徵空間(Feature Space)插值，產生新的合成樣本。這樣可以讓模型能更有效地學習少數類別的決策邊界(Decision Boundary)。決策邊界是機器學習的分類模型中的一個核心概念，是指在特徵空間中，能夠將不同類別的樣本區分開來的界線或曲面。

SHAP

用於解釋模型的預測結果、偏誤偵測、特徵選擇……等。用來解釋模型預測的結果，而不是用來處理資料不平衡。應用博弈論(Game Theory)中的Shapley值，來衡量每個特徵對模型預測的貢獻程度。可以針對單一樣本或整體模型進行解釋。能幫助理解模型是否因類別不平衡而偏向某些特徵。SHAP的價值在於：

能找出造成缺陷的關鍵因素，或最容易導致缺陷的製程參數。
根據SHAP的分析結果，優化高貢獻的特徵，藉此提升製程良率。
使模型透明化，讓工程師與品管人員能信任AI模型的判斷結果。
在處理不平衡資料集時，兩者可以搭配使用：先用SMOTE改善資料分布，再利用SHAP分析模型是否存在偏誤，或有無偏差。

此外，SMOTE和隨機過採樣(Random Oversampling, ROS)雖同屬於過採樣技術，但它們的原理與效果差異很大。表2是SMOTE和ROS之比較。SMOTE的運作原理是對每個少數類別樣本，找出其K個近鄰。在每個少數類別樣本與近鄰之間隨機插值，生成新樣本。這些新樣本是合成的，不是複製的，因此能擴展特徵空間。例如：有兩個相鄰的少數類別樣本A和B，SMOTE會在A和B之間的特徵空間中，生成一個新樣本C，藉此增加新樣本，使模型學習到更多樣的決策邊界，如圖2。ROS的運作原理是從少數類別樣本中，隨機抽樣並複製，直到類別平衡。它沒有產生新資訊，只是增加樣本數量。例如：有100個少數類別樣本，ROS可能會複製其中的某些樣本2至3次，樣本總數量達300。若資料量小、模型簡單時，採用ROS可能就足夠了。但ROS的缺點是在資料集中，會出現大量完全相同的樣本，這些樣本在特徵空間中重疊在一起，容易造成過擬合(Overfitting)。若希望模型能學習到更豐富的決策邊界，不妨使用SMOTE。但若擔心SMOTE可能生成不自然的樣本，可考慮採用進階版本的邊界線少數類別過採樣技術(Borderline-SMOTE)或自適應合成過採樣(Adaptive Synthetic Sampling, ADASYN)。

晶圓圖

晶圓圖(Wafer Map)是整個晶圓測試結果的視覺圖形。圖3是一個典型的20×20熱圖(Heatmap)，用來表示晶圓上的空間資訊。X-Y軸座標對應於晶圓表面上的裸片網格座標(Die Grid Coordinate)。晶圓上的(x,y)座標代表每個特定的裸片。熱圖是以顏色編碼，從藍色到紅色可代表整個晶圓的量測數值，例如：缺陷分布情形、訊號完整性、溫度。工程師可使用晶圓圖追蹤缺陷；或將裸片的位置與故障模式產生關聯；或與晶圓的物理特徵(例如：V型缺口或平面)對齊，供後續製程對準方向使用，以利後續切割、封裝與良品挑選，以提高良率與成本效益。將晶圓圖中的故障裸片篩選出來，即可得到缺陷圖，它能顯示發生缺陷的空間位置。從晶圓測試到晶圓圖輸出的流程，如圖4所示。其中，晶圓測試是使用探針機(Prober)搭配測試機(Tester)對晶圓上的每顆裸片進行電氣特性測試，以確認功能是否正常。測試資料的收集，是使用測試機將每顆裸片的測試結果記錄下來，包含測試通過或失敗、電氣參數……等。等級分類(Bin Sorting)是根據測試結果將裸片分為不同等級(Bin)，例如：良品、不良品等。這個流程是晶圓製程中非常關鍵的一環。晶圓圖不僅是品質控管的工具，也能用來分析製程偏差(Process Deviation)、設備異常等問題。

等級分類

在晶圓測試中，等級定義是將每顆裸片根據其電氣測試結果分類的過程。這不是簡單地做出良劣的判斷，而是根據不同的性能指標，例如：傳輸速率、功耗、電壓容限等進行分級，使後續的封裝、出貨或客製化應用更具彈性。每顆裸片經過測試和等級分類後，其等級編號(Bin Number)會標記在晶圓圖上，供後續製程參考。等級定義與良率分析、客製化出貨、封裝策略、測試優化息息相關，如下所述：

良率分析：統計各等級的分布情形，能評估製程的穩定性。
客製化出貨：根據客戶需求挑選特定等級的裸片，例如：高頻版本、低功耗版本…..等。
封裝策略：不同等級的「裸片」可能使用不同封裝方式或材料。
優化測試參數：分析等級的分布情形，可倒推測試參數是否合理。

深度整合特徵框架

圖5是深度整合特徵框架(Deep Ensemble Feature Framework, DEFF)，是基於卷積神經網路(CNN)模型構建的。此框架使用在ImageNet資料集上訓練的CNN模型作為其核心組件，分別標記為CNN1、CNN2、…...、CNNk。這些預先訓練的CNN模型都獨立地對輸入圖像進行特徵擷取和初步分類。因為不同的模型可能會從不同角度捕捉到少數類別的特徵。其輸出是經過軟投票整合(Soft Voting Ensemble)進行組合，共同完成最終分類。此方法會整合多個特徵擷取模型或分類器輸出的機率分布，以提升晶圓缺陷檢測的準確率與穩定性，這正是整合學習(Ensemble Learning)的核心概念。由於它整合了多個CNN模型，因此可視為一種整合型CNN模型。每個獨立的CNN模型在輸出層都有激活函數(softmax1, softmax2,……, softmaxk)。softmax層的輸出不是單一的類別預測，而是一個機率分布，表示輸入圖像屬於每個類別的可能性。

軟投票整合通常是將每個模型的預測機率進行平均、加權平均或求和，然後選擇具有最高綜合機率的類別作為最終預測。軟投票考慮了每個模型的預測信心值。而硬投票(Hard Voting)的每個CNN模型是直接投給一個類別，然後統計哪個類別的票數最多。在圖5中，最終輸出的分類結果是以條狀圖呈現，正是基於整合學習得來的。

精選影音

Upcoming Events