ROCm · magaonka-amd · Apr 11, 2026 · claude · Apr 12, 2026 · claude
diff --git a/xla/stream_executor/rocm/cub_scan_kernel_rocm_impl.cu.cc b/xla/stream_executor/rocm/cub_scan_kernel_rocm_impl.cu.cc
@@ -22,7 +22,6 @@ limitations under the License.
 #include "rocm/include/rocprim/block/block_load.hpp"
 #include "rocm/include/rocprim/block/block_scan.hpp"
 #include "rocm/include/rocprim/block/block_store.hpp"
-#include "rocm/include/rocprim/device/detail/device_config_helper.hpp"
 #include "rocm/include/rocprim/device/device_scan.hpp"
 #include "rocm/include/rocprim/functional.hpp"
 #include "xla/stream_executor/rocm/cub_scan_kernel_rocm.h"
@@ -34,17 +33,24 @@ namespace stream_executor::rocm {
 
 namespace {
 
-// Architecture-aware tuning from rocPRIM's autotuned scan config.
+// Scan config using rocPRIM's generic default formula for block size and
+// items-per-thread. Hardcoded to avoid depending on rocPRIM internal
+// detail:: API (default_scan_config_base was renamed/restructured since
+// TheRock >= 7.11).
 template <typename T>
 struct ScanConfig {
-  using RocprimConfig =
-      typename rocprim::detail::default_scan_config_base<T>::type;
-  static constexpr int kBlockSize = RocprimConfig::block_size;
-  static constexpr int kItemsPerThread = RocprimConfig::items_per_thread;
+  static constexpr unsigned int kItemScale =
+      (sizeof(T) + sizeof(int) - 1) / sizeof(int);
+  static constexpr int kBlockSize = 256;
+  static constexpr int kItemsPerThread =
+      static_cast<int>(16u / kItemScale > 0 ? 16u / kItemScale : 1u);
-      static_cast<int>(16u / kItemScale > 0 ? 16u / kItemScale : 1u);
+      static_cast<int>(std::max(1u, 16u / kItemScale));
-      static_cast<int>(16u / kItemScale > 0 ? 16u / kItemScale : 1u);
+      static_cast<int>(std::max(1u, 16u / kItemScale));
   static constexpr int kTileSize = kBlockSize * kItemsPerThread;
-  static constexpr auto kLoadMethod = RocprimConfig::block_load_method;
-  static constexpr auto kStoreMethod = RocprimConfig::block_store_method;
-  static constexpr auto kScanAlgorithm = RocprimConfig::block_scan_method;
+  static constexpr auto kLoadMethod =
+      rocprim::block_load_method::block_load_transpose;
+  static constexpr auto kStoreMethod =
+      rocprim::block_store_method::block_store_transpose;
+  static constexpr auto kScanAlgorithm =
+      rocprim::block_scan_algorithm::using_warp_scan;
 };
 
 template <typename T>