WaveBoost - Inference Kernel

Summary

WaveBoost is my personal repository to experiment with inference-time optimizations. I implemented individual CUDA kernels for LLM inference.

📊 Benchmarks

Attention Mechanisms Comparison

Performance comparison between Multi-Head Attention (MHA) and Grouped Query Attention (GQA):

GQA demonstrates superior memory efficiency while maintaining competitive latency through optimized grouped computation without explicit KV replication.

📚 References

Flash Attention Papers

Flash Attention v1: Dao et al., 2022 - Fast and Memory-Efficient Exact Attention with IO-Awareness
Flash Attention v2: Dao, 2023 - Faster Attention with Better Parallelism and Work Partitioning

Name		Name	Last commit message	Last commit date
Latest commit History 51 Commits
benchmarks/flash_attention		benchmarks/flash_attention
continuous-batching		continuous-batching
distillation		distillation
experiments		experiments
prefill-decode-sep		prefill-decode-sep
quantization		quantization
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
Roadmap.md		Roadmap.md
main.py		main.py
pyproject.toml		pyproject.toml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WaveBoost - Inference Kernel

Summary

📊 Benchmarks

Attention Mechanisms Comparison

📚 References

Flash Attention Papers

CUDA Optimization Resources

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

WaveBoost - Inference Kernel

Summary

📊 Benchmarks

Attention Mechanisms Comparison

📚 References

Flash Attention Papers

CUDA Optimization Resources

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages