基于机器学习的酒店匹配方法及N-元语法图形索引技术研究
立即解锁
发布时间: 2025-08-29 11:35:10 阅读量: 3 订阅数: 16 

### 基于机器学习的酒店匹配方法及 N - 元语法图形索引技术研究
#### 1. 酒店匹配的机器学习方法
在酒店数据处理中,由于数据来源多样,常常会遇到酒店匹配的问题。以往的研究采用了不同的方法来解决这一问题。
##### 1.1 相关研究回顾
- 有研究使用 30 棵树的随机森林分类器,在机器学习部分运用酒店图像特征识别相似记录时取得了较好结果。
- Aksoy 等人使用 Soundex 算法进行 Map - Reduce 过程,将旅游机构的酒店数据与合作伙伴的数据进行匹配,显著减少了数据匹配所需时间,且发现 Dice 系数算法在数据匹配和处理时间方面表现更佳。
- Mohammed 等人提出一个框架,用于定义香港一家全方位服务酒店的企业身份、分析潜在竞争对手市场以及匹配具有相似企业身份的酒店。
- Perez 使用机器学习方法,借助 AdaBoost 和 XGboost 算法找到代表同一酒店的记录。
- Bayrak 等人利用相似度算法和机器学习方法检测旅游公司的重复客户记录,使用支持向量机(SVM)算法的分类模型取得了更成功的结果。
- Koumarelas 等人利用基于字符和向量的相似度方法确定美国地址和位置信息可用的酒店重复记录,并使用地理编码和反向地理编码方法降低富集过程中的错误率。
- Zheng 等人使用分类算法在包含地理位置的多源数据集中找到代表同一记录的相似记录,比一对一匹配和基于规则的方法更成功。
与以往研究不同,本方法仅使用所有供应商都具备的最常见酒店属性,避免了使用并非总是可用且可能差异巨大的其他酒店字段,如电话号码、网站、电子邮件和图像数据。
##### 1.2 数据集
本研究使用了由 259851 对酒店组成的数据集,且预先知道这些酒店是否相同。数据来自两个不同来源,很可能存在错误、缺失值和异常值,因此在用于匹配过程之前需要进行数据预处理。例如,数据集中存在经度属性的错误值以及国家名称而非国家代码的情况。
| 名称 | 地址 | 邮政编码 | 城市 | 国家 | 纬度 | 经度 |
| --- | --- | --- | --- | --- | --- | --- |
| Days Inn by Wyndham Greensboro Airport | 501 S Regional Rd | 27409 | Greensboro | US | 36.08244 | -79.95644 |
| Agriturismo Poderi Minori Loc. Marena - Podere Archiano | 52011 | Bibbiena | IT | 43.71867 | 1181919 |
| La Mamounia Avenue Bab - Jdid | 40040 | Marrakesh | Morocco | 31.62207 | -7.99760 |
##### 1.3 解决方案
- **数据预处理**:这是构建机器学习模型的关键步骤,目的是从数据中提取有意义的信息。对酒店数据进行预处理,包括数据归一化、处理分类特征、处理缺失数据、处理标签噪声、去除异常值等。对于坐标数据进行验证和校正,使用国家代码作为国家属性的标准化值。对文本属性进行以下处理:
- 将所有标点符号转换为空格。
- 通过用一个空格替换任何连续的空白符号来归一化多个空白。
- 将任何带重音的字母替换为其不带重音的等效字母。
- 将所有字母小写。
- 去除最常见的重复词,如 hotel、hostel、suites、inn 和 resort。
- **相似度测量**:使用文本相似度测量方法检查每对酒店的名称、地址和邮政编码数据的相似度,采用 Dice 系数算法,其相似度值将用作特征。对于坐标数据,通过相减并归一化到 [0, 1]
0
0
复制全文
相关推荐










