量子原型聚类的距离估计
1. 引言
机器学习技术广泛应用于解决各类问题,如信息排序、回归和分类。监督学习中,学习者依据带标签的高维特征向量训练集对新样本分类;无监督学习则尝试在无标签数据中挖掘隐藏结构。
随着社会数据量剧增,强大的信息处理方式愈发重要。近年来,大规模机器学习成为研究热点,量子机器学习领域也取得诸多进展,涵盖线性代数量子程序开发、模式识别问题解决以及量子人工神经网络的发展等。
本文聚焦于量子原型聚类的距离估计。在机器学习算法中,分析向量间的相似度通常通过评估向量间的距离和内积来实现。而量子聚类算法中的距离概念与传统有所不同,它可能因量子态的概率特性而变化。
2. 如何估计给定数据与质心之间的距离
聚类算法需要测量数据点到不同质心的距离。在量子计算机上实现距离测量并非易事,传统计算机计算欧几里得距离较为简单,但在量子计算机上采用相同方法会更复杂,且需要更多的量子比特。不过,量子比特的概率特性使得测量相位差和概率振幅变得相对容易。
对于聚类算法而言,距离的作用主要是将数据点分配到不同的簇中,我们只需知道哪个簇离数据点最近,而不需要精确的距离值,因此距离测量只需与实际距离呈正相关即可。
在量子计算中,处理量子比特时存在多种距离类型的测量方法,例如两个(归一化)向量的内积以及测量量子比特处于|0⟩或|1⟩状态的概率。
2.1 保真度作为相似度度量
保真度用于衡量两个量子态之间的相似度。对于两个纯态|ψ⟩和|φ⟩,保真度定义为Fid(|ψ⟩, |φ⟩) = | ⟨ψ|φ⟩|²。保真度的值在0(两态正交,完全可区分)到1(两态相同)之间变化。