使用带有CROSS_VAL_SCORE的自定义估计器失败自定义、CROSS_VAL_SCORE

2023-09-03 14:58:34 作者:乱世同盟

我正在尝试使用cross_val_score和自定义估计器。重要的是,此估计器接收一个成员变量,该变量稍后可在fit函数中使用。但似乎在cross_val_score内部,成员变量被销毁(或者正在创建估计器的新实例)。 以下是可以重现错误的最小代码:

from sklearn.model_selection import cross_val_score
from sklearn.base import BaseEstimator

class MyEstimator(BaseEstimator):
    def __init__(self, member):
        self._member = member

    def fit(self, X, y):
        if self._member is None:
            raise Exception('member is None.')

X = np.array([[1, 1, 1], [2 ,2 , 2]])
y = np.array([1, 2])

score_values = cross_val_score(
            MyEstimator('some value'),
            X,
            y,
            cv=2, 
            scoring='r2'
        )

在上面的代码中,总是引发异常。 有办法解决这个问题吗?

推荐答案

交叉验证以及scikit learn中的cross val score详解

在内部克隆估计器,以创建估计器的多个副本。Reference;使用clone函数。

from sklearn.base import clone
t = MyEstimator('some value')
t1 = clone(t)
t._member, t1._member
#
('some value', None)

clone仅从对象复制构造函数参数值。

解决方案:

使构造函数参数和对象属性保持一致,因此应以下划线开头或删除所有位置的下划线!

class MyEstimator(BaseEstimator):
    def __init__(self, member):
        self.member = member

    def fit(self, X, y):
        if self.member is None:
            raise Exception('member is None.')

    def predict(self, X):
        return [1]

X = np.array([[1, 1, 1], [2 ,2 , 2],[3,3,3]])
y = np.array([1, 2,3])

score_values = cross_val_score(
            MyEstimator('some value'),
            X,
            y,
            cv=3, 
            scoring='r2',error_score='raise'
        )