【presto】Encountered too many errors talking to a worker node. The node may have crashed or be under

秦拿希

已于 2024-06-11 13:27:10 修改

阅读量8.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： presto yarn 文章标签： presto

于 2020-07-17 15:12:47 首次发布

本文链接：https://blog.csdn.net/w8998036/article/details/107408959

presto 同时被 2 个专栏收录

10 篇文章

订阅专栏

yarn

4 篇文章

订阅专栏

在高负载下，Presto集群中的一台worker节点因资源竞争导致任务执行缓慢及失败。通过添加节点标签，成功避免了YARN调度器将Presto任务重新分配到该节点，有效解决了任务挂起和超时问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

生产设置的presto集群的并发任务是10个，队列200。43台worker，每台分配15G内存。今天由于任务量过大，而且大查询任务很多，导致很多sql跑的很慢，并且有些sql在跑到99%的时候一直pengding，到了timeout时间就抛错了

点进去看报错原因，发现以下报错

com.facebook.presto.spi.PrestoTransportException: Encountered too many errors talking to a worker node. 
The node may have crashed or be under too much load. This is probably a transient issue, 
so please retry your query in a few minutes. (getting task status http://10.38.199.117:8090/v1/task/20200717_054320_01590_tu6mh.2.0 - 261 failures, 
failure duration 308.87s, total failed request time 247.15s)

从内容看似乎是10.38.199.117这台机器负载过高了，因为还跑了其他程序，导致presto任务无法顺利执行。那能否把这台机器直接踢出去呢，yarn或slider命令似乎没有能指定剔除某一台worker的，没办法直接在117的控制台找到presto进程，直接kill掉