职业生涯路径分析与网络结构粒子群优化器:方法与应用
立即解锁
发布时间: 2025-08-20 00:48:46 阅读量: 1 订阅数: 5 

### 职业生涯路径分析与网络结构粒子群优化器:方法与应用
#### 职业生涯路径分析
在分析职业生涯路径时,传统的聚类方法存在一些局限性。目前常用的两种聚类方法,一种是通过因子分析将分类变量转化为连续变量,再应用基于欧几里得距离的聚类算法;另一种是计算数据的适配距离,然后使用层次树和基于距离矩阵的邻近准则进行聚类。但前者对数据的线性假设较强,后者不适用于大数据集,且难以展示和可视化结果。
为解决这些问题,提出了一种两步法来聚类职业生涯路径:
1. **计算职业生涯路径之间的相异矩阵**
2. **训练用于相异矩阵的自组织映射**
##### 方法步骤
- **步骤1:选择合适的距离(最优匹配)**
- 以往研究常采用多重对应分析将分类变量转化为连续变量,以便使用基于欧几里得距离的聚类算法,但该方法假设数据是线性的,存在局限性。
- 最优匹配(也称为“编辑距离”或“莱文斯坦距离”)是一种更合适的方法。它通过插入、删除和替换三种操作将一个序列转换为另一个序列,并计算最小操作次数对应的成本作为两个序列之间的距离。
- 在“Generation 98”数据集中,所有职业生涯路径长度相同,只需计算替换成本。替换成本根据状态之间的转移矩阵计算,公式为:$w (a_i, a_j) = 2 - P (a_i|a_j) - P (a_j|a_i)$。
- **步骤2:用于分类数据的自组织映射**
- 传统的“最优匹配 - 聚类”方法在展示和可视化结果方面存在限制。自组织映射(Kohonen算法)是一种聚类算法和非线性投影方法,它将输入数据投影到一个网格上,具有拓扑保持性,能保留路径之间的邻近关系。
- 对于职业生涯路径数据,使用了一种通用的自组织映射算法。该算法不考虑数据的初始结构,仅以相异矩阵为输入。算法步骤如下:
1. 随机选择输入数据中的原型。
2. 重复以下步骤直到分区稳定:
- **分配步骤**:通过最小化类内方差准则,将每个输入分配到最接近的原型类中,此时原型固定。
- **表示步骤**:确定新的分区后,通过最小化相同准则计算新的原型。
##### 实际数据应用
使用法国CEREQ的“Generation 98”调查数据进行验证。该数据集包含16040名1998年毕业的年轻人在毕业后94个月的劳动力市场状态信息,分为九类:“永久劳动合同”、“固定期限合同”、“学徒合同”、“公共临时劳动合同”、“随叫随到合同”、“失业”、“非活跃”、“服兵役”、“教育”。
通过初步分析发现:
- 永久劳动合同在一年后占所有状态的比例超过20%,三年后达到50%,七年后接近75%。
- 固定期限合同在劳动力市场一年后的比例超过20%,三年后降至15%,最终趋于8%。
- 约30%的年轻毕业生在一年后失业,四年后该比例稳定在10%。
考虑到永久合同的高比例和吸收性,将分析重点放在两年内未进入“永久合同”状态的职业生涯路径上,数据集减少到11777个输入。
分析步骤如下:
1. 计算转移矩阵和相关的替换成本矩阵。
2. 使用最优匹配和步骤1中的替换成本矩阵计算相异矩阵。
3. 根据步骤2中的相异矩阵,使用自组织映射算法对职业生涯路径进行聚类。
计算得到的成本矩阵如下:
```plaintext
C =
⎛
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎜
⎝
0
1.968 1.976 1.989 1.977 1.973 1.975 1.985 1.987
1.968
0
1.991 1.994 1.978 1.927 1.957 1.979 1.976
1.976 1.991
0
1.999 1.994 1.980 1.989 1.998 1.997
1.989 1.994 1.999
0
1.998 1.984 1.993 1.998 1.997
1.977 1.978 1.994 1.998
0
1.951 1.973 1.979 1.988
1.973 1.927 1.980 1.984 1.951
0
1.954 1.971 1.966
1.975 1.957 1.989 1.993 1.973 1.954
0
1.977 1.947
1.985 1.979 1.998 1.998 1.979 1.971 1.977
0
1.996
1.987 1.976 1.997 1.997 1.988 1.966
```
0
0
复制全文
相关推荐








