python计算余弦相似性和汉明距离-526互联

要使用矩阵相乘来计算7个二进制编码之间的余弦相似性，我们需要先将二进制编码转换为数值向量。对于每个二进制编码，我们可以将0映射为-1，将1映射为1，从而得到一个数值向量。然后，我们可以将这些数值向量表示为一个矩阵，并进行矩阵相乘来计算余弦相似性。

以下是一个示例代码，使用Python和NumPy库来执行此操作：

import numpy as np

# 7个二进制编码
binary_codes = [
    [0, 1, 0, 1, 1, 0, 0],
    [1, 0, 1, 0, 0, 1, 1],
    [0, 0, 1, 0, 1, 0, 1],
    [1, 1, 1, 0, 0, 1, 0],
    [1, 0, 0, 1, 0, 1, 0],
    [0, 1, 0, 0, 1, 0, 1],
    [1, 1, 0, 1, 1, 0, 1]
]

# 将二进制编码转换为数值向量
vectorized_codes = np.array(binary_codes) * 2 - 1

# 计算余弦相似性
cosine_similarity = np.dot(vectorized_codes, vectorized_codes.T) / np.outer(np.linalg.norm(vectorized_codes, axis=1), np.linalg.norm(vectorized_codes, axis=1))

print(cosine_similarity)

上述代码将输出一个7x7的矩阵，其中每个元素[i, j]表示第i个二进制编码和第j个二进制编码之间的余弦相似性。值的范围在-1到1之间，越接近1表示相似性越高，越接近-1表示相似性越低。对角线上的元素表示每个编码与自身的相似性，因此都应该为1。

在计算余弦相似性时，我们需要比较向量之间的夹角。二进制编码是由0和1组成的序列，不包含连续的数值信息，无法直接计算向量之间的夹角。因此，我们需要将二进制编码转换为数值向量，以便进行余弦相似性的计算。

将二进制编码转换为数值向量的一种常见方法是将0映射为-1，将1映射为1。这样做的目的是为了保留二进制编码的相对性质，即将0和1分别映射到数值空间中的两个相距较远的点。通过这种映射，我们可以计算向量之间的夹角，并使用余弦相似性作为相似性度量。

请注意，该方法假设二进制编码中的0和1具有等价的重要性。如果对于特定问题，0和1具有不同的含义或重要性，可能需要采用其他的数值映射方法。

如果要使用汉明距离来比较二进制编码之间的相似性，可以直接计算编码之间的汉明距离。汉明距离是指在相同长度的两个二进制编码中，对应位置上不同的位数。

以下是一个示例代码，使用Python来计算7个二进制编码之间的汉明距离：

# 7个二进制编码
binary_codes = [
    [0, 1, 0, 1, 1, 0, 0],
    [1, 0, 1, 0, 0, 1, 1],
    [0, 0, 1, 0, 1, 0, 1],
    [1, 1, 1, 0, 0, 1, 0],
    [1, 0, 0, 1, 0, 1, 0],
    [0, 1, 0, 0, 1, 0, 1],
    [1, 1, 0, 1, 1, 0, 1]
]

# 计算汉明距离矩阵
hamming_distance = []
for i in range(len(binary_codes)):
    row = []
    for j in range(len(binary_codes)):
        distance = sum(bit1 != bit2 for bit1, bit2 in zip(binary_codes[i], binary_codes[j]))
        row.append(distance)
    hamming_distance.append(row)

# 输出汉明距离矩阵
for row in hamming_distance:
    print(row)

相似性information python mutual