Cómo normalizar las medidas de similitud de Wordnet

Estoy tratando de calcular la similitud semántica entre dos palabras. Estoy utilizando medidas de similitud basadas en Wordnet, es decir, medida Resnik (RES), medida Lin (LIN), medida Jiang y Conrath (JNC) y medida Banerjee y Pederson (BNP).

Para hacer eso, estoy usando nltk y Wordnet 3.0. A continuación, quiero combinar los valores de similitud obtenidos de diferentes medidas. Para hacer eso, necesito normalizar los valores de similitud ya que algunas medidas dan valores entre 0 y 1, mientras que otras dan valores mayores que 1.

Entonces, mi pregunta es cómo normalizo los valores de similitud obtenidos de diferentes medidas.

Detalles adicionales sobre lo que realmente estoy tratando de hacer: tengo un conjunto de palabras. Calculo la similitud de pares entre las palabras. y elimine las palabras que no estén fuertemente correlacionadas con otras palabras en el conjunto.

Cómo normalizar una sola medida.

Consideremos una única medida de similitud arbitraria M y tomemos una palabra arbitraria w .

Definir m = M(w,w) . Entonces m toma el valor máximo posible de M

Vamos a definir MN como una medida normalizada M

Para cualquier dos palabras w, u puede calcular MN(w, u) = M(w, u) / m .

Es fácil ver que si M toma valores no negativos, entonces MN toma valores en [0, 1] .

Cómo normalizar una medida combinada de muchas medidas.

Para calcular su propia medida definida F combinada de k diferentes medidas m_1, m_2, ..., m_k primero normaliza independientemente cada m_i usando el método anterior y luego define:

 alpha_1, alpha_2, ..., alpha_k 

tal que alpha_i denota el peso de i-th medida.

Todos los alfas deben sumr hasta 1, es decir:

 alpha_1 + alpha_2 + ... + alpha_k = 1 

Luego, para calcular su propia medida para w, u usted hace:

 F(w, u) = alpha_1 * m_1(w, u) + alpha_2 * m_2(w, u) + ... + alpha_k * m_k(w, u) 

Está claro que F toma valores en [0,1]