题目链接:
题目描述:
解法
利用堆来解决TopK问题
- 预处理一下原始的字符串数组,用一个哈希表统计一下每一个单词出现的频次。
- 创建一个大小为k的堆
- 频次:小根堆
- 字典序(频次相同的时候):大根堆
- 循环
- 让元素依次进堆
- 判断
- 提取结果
C++ 算法代码:
class Solution
{
// 定义类型别名,PSI表示<单词, 频次>对
typedef pair<string, int> PSI;
// 自定义比较器,用于优先队列中元素的排序
struct cmp
{
bool operator()(const PSI& a, const PSI& b)
{
// 如果两个单词出现频次相同
if(a.second == b.second)
{
// 按字典序排列,较小的单词优先级较低
// 注意:因为我们需要较大的字典序在堆顶,所以用<
return a.first < b.first;
}
// 按频次排列,较大的频次优先级较低
// 注意:这里使用>而不是<,是为了创建一个小根堆
// 这样频次较小的元素会在堆顶
return a.second > b.second;
}
};
public:
vector<string> topKFrequent(vector<string>& words, int k)
{
// 1. 统计每个单词的出现频次
unordered_map<string, int> hash;
for(auto& s : words) hash[s]++;
// 2. 创建一个大小为k的小根堆
// 这里的小根堆是按照我们自定义的比较器排序的
// 频次低的在堆顶,频次相同则字典序大的在堆顶
priority_queue<PSI, vector<PSI>, cmp> heap;
// 3. 实现TopK的核心逻辑
for(auto& psi : hash)
{
heap.push(psi); // 将当前单词及其频次加入堆
// 如果堆大小超过k,弹出堆顶(频次最小的元素)
// 这样堆始终保持k个频次最高的元素
if(heap.size() > k) heap.pop();
}
// 4. 提取最终结果
vector<string> ret(k);
// 注意反向填充结果数组
// 因为堆中的元素是按频次从小到大、频次相同则按字典序从大到小排列的
// 我们需要从堆顶依次取出元素,反向填充到结果数组中
// 这样最终结果就是按频次从大到小、频次相同则按字典序从小到大排列
for(int i = k - 1; i >= 0; i--)
{
ret[i] = heap.top().first; // 取出堆顶元素(单词)
heap.pop(); // 弹出堆顶
}
return ret; // 返回结果数组
}
};