【时序聚类】论文解读k-Shape: Efficient and Accurate Clustering of Time Series

本文详细解读了k-Shape算法，一种针对时间序列数据的聚类方法，强调了其在效率和准确性上的优势。文章探讨了时间序列的不变性、距离度量和聚类算法，并介绍了k-Shape的独特之处——基于形状的相似性和质心计算。通过实验设置和与其他算法的对比，展示了k-Shape在时序聚类问题中的优秀表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

k-Shape: Efficient and Accurate Clustering of Time Series

【论文解读有不正确之处欢迎指正】

论文来源：https://dl.acm.org/doi/10.1145/2949741.2949758

论文来自于2016年ACM SIGMOD（有说是2015年，没具体去查），

论文下载：http://www.cs.columbia.edu/~jopa/Papers/PaparrizosSIGMOD2015.pdf

论文代码：（MATLAB）http://www.cs.columbia.edu/~jopa/code/kShapeCODE.zip（需要解压密码，可以联系作者email获取，作者可能是想用这种方式看有多少人关注吧，发个邮件就会给出0258）

1st作者email：[email protected]

几个关于该篇论文的解读网址：

https://blog.csdn.net/qq_28900249/article/details/84029050（该篇博客分析到第三章）

https://blog.csdn.net/SCS199411/article/details/90759439（做了简要的分析）

https://slideplayer.com/slide/8542719/该网站是一个关于此论文的视频介绍，一共13分钟，只看一小部分，可做借鉴

其他未关于此论文的解读和总结（若有其他资料，欢迎分析）

【论文有理解错误之处欢迎讨论之处，有资料可分享[email protected]】

k-Shape: Efficient and Accurate Clustering of Time Series

Abstract：

1、INTRODUCTION

2、PRELIMINARIES

2.1 Theoretical Background

2.2 Time-Series Invariances（时序数据的几种不变性）

2.3 Time-Series Distance Measures（距离测度）

2.4 Time-Series Clustering Algorithms（序列聚类的算法）

2.5 Time-Series Averaging Techniques（计算序列中心的算法）

2.6 Problem Definition

3. K-SHAPE CLUSTERING ALGORITHM

3.1 Time-Series Shape Similarity（距离测度）

3.2 Time-Series Shape Extraction

3.3 Shape-based Time-Series Clustering

4. EXPERIMENTAL SETTINGS

论文总结

Abstract：

1、介绍时序聚类的意义和使用价值，跨学科、跨领域的时序数据更加普遍，聚类方法是数据融合中是非常受欢迎的一个方法
2、概括本文方法的特点（homogeneous and well-separated），介绍本文方法的思路，两个创新：距离测度和类质心计算。
3、与其他算法的对比和实验性分析

1、INTRODUCTION

这一部分篇幅较长，可以总结为一下几个部分
1、对时序数据介绍和引入，那些数据可以看做时序数据，另外介绍其使用的领域
2、介绍处理时序数据的方法，回顾各文献中对聚类的关注，引出时序聚类
3、指出时序聚类中时间测度的问题，并利用心电图数据做出解释
4、大多文献在聚类中对距离测度的创新多于对算法的创新，但算法的选择也会影响到准确性和效率
5、介绍本文的算法，k-shape与K-means算法的相同之处与不同之处。相同之处在于都是不断迭代完善的不同在于使用不同的距离测度和质心计算方法
6、实验结果概括，在48种数据库上做实验，并与目前最好的算法进行对比。作者得出与别的文献不同或是相反的结论（in contrast to what has been reported in the literature），指出算法和距离测度一样重要。
7、最后是相关章节的安排

2、PRELIMINARIES

(预备知识，分为6个部分)

2.1 Theoretical Background

Hardness of clustering:
介绍类的两种特性：同质性和分离性（homogeneity and separation【可能翻译不准确】），即为类内元素尽可能相似，类间元素尽可能不相似。作者说最小化SSD（sum of squared distances）可以表达这两者（both）。【貌似表达homogeneity还可以，表达separation有些牵强，或许是理解不到位】