对GPU进行性能优化时,cudagraph是绕不开的话题。
不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。
NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。
本文尝试从底层原理出发,根据文档 和 …。
我自己练好的呀 我之前说过这事儿,我腰突其实挺突然的,就是在...
时间,根本不存在。 知道这个终极秘密,有什么用? 一个250...
当你用某云输入法,经常输入123456,下一次输入1,他就提...
在我小的时候,我爸曾掐着我妈脖子,让她拿出钱来买一台六千块钱...
广西的发展,这个一直是个很尴的问题!但是往后看10年,差不多...
SGA的球风比较像国内某个野球网红,一样是辅助手功夫了得,日...