From a10cdf85816fb08a06364a860636c28d3ace56ed Mon Sep 17 00:00:00 2001
From: shaia <shaia@outlook.com>
Date: Fri, 21 Nov 2025 06:47:56 +0200
Subject: [PATCH 1/4] fix(assembly): fix multiple critical bugs in AVX2 batch
 processing
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Fixes three major bugs in the AVX2 assembly that caused test failures:

1. Fixed prime64 constant symbol visibility
   - Removed '<>' suffix from prime64_1-5 declarations to make them
     accessible across assembly files
   - Fixed "relocation target not defined" linker errors

2. Fixed incorrect fingerprint hash calculation for i2 index
   - Was doing: hash = prime64_5 + 1 + fp (wrong!)
   - Should be: hash ^= fp * prime64_5, then rotate and multiply
   - Matches the Go reference implementation in xxhash.go
   - Fixes incorrect i2 values in test results

3. Fixed off-by-one error in SIMD loop batch size check
   - Was checking SI-3 >= 0, allowing 3-item batches into 4-way SIMD
   - Now checks SI-4 >= 0, correctly requiring at least 4 items
   - Prevents crashes from reading uninitialized item pointers

Test results:
- 1-item batches: ✓ PASS
- 2-item batches: ✓ PASS
- 3-item batches: ✓ PASS
- 4-item batches: Still failing with nil pointer (separate issue)
---
 internal/hash/xxhash/batch_avx2_amd64.s | 140 +++++++++++++-----------
 internal/hash/xxhash/xxhash_amd64.s     |  43 ++++----
 2 files changed, 96 insertions(+), 87 deletions(-)

diff --git a/internal/hash/xxhash/batch_avx2_amd64.s b/internal/hash/xxhash/batch_avx2_amd64.s
index 46df235..98afac9 100644
--- a/internal/hash/xxhash/batch_avx2_amd64.s
+++ b/internal/hash/xxhash/batch_avx2_amd64.s
@@ -11,31 +11,31 @@ DATA avx2_prime64_1<>+0(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+8(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+16(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+24(SB)/8, $11400714785074694791
-GLOBL avx2_prime64_1<>(SB), RODATA, $32
+GLOBL avx2_prime64_1(SB), RODATA, $32
 
 DATA avx2_prime64_2<>+0(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+8(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+16(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+24(SB)/8, $14029467366897019727
-GLOBL avx2_prime64_2<>(SB), RODATA, $32
+GLOBL avx2_prime64_2(SB), RODATA, $32
 
 DATA avx2_prime64_3<>+0(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+8(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+16(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+24(SB)/8, $1609587929392839161
-GLOBL avx2_prime64_3<>(SB), RODATA, $32
+GLOBL avx2_prime64_3(SB), RODATA, $32
 
 DATA avx2_prime64_4<>+0(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+8(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+16(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+24(SB)/8, $9650029242287828579
-GLOBL avx2_prime64_4<>(SB), RODATA, $32
+GLOBL avx2_prime64_4(SB), RODATA, $32
 
 DATA avx2_prime64_5<>+0(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+8(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+16(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+24(SB)/8, $2870177450012600261
-GLOBL avx2_prime64_5<>(SB), RODATA, $32
+GLOBL avx2_prime64_5(SB), RODATA, $32
 
 // Shift constants for rotation
 DATA avx2_shift_31<>+0(SB)/8, $31
@@ -92,7 +92,7 @@ TEXT ·processBatchXXHashAVX2(SB), NOSPLIT, $136-64
 
     // Check if we can process 4 items in parallel
     MOVQ SI, R15
-    SUBQ $3, R15
+    SUBQ $4, R15
     JL   scalar_loop  // If items < 4, use scalar
 
 // Process 4 items in parallel using AVX2
@@ -101,7 +101,7 @@ simd_loop:
     JG   scalar_loop
 
     // Load constants into YMM registers
-    VMOVDQU avx2_prime64_5<>(SB), Y0   // Y0 = prime64_5 (4x)
+    VMOVDQU avx2_prime64_5(SB), Y0   // Y0 = prime64_5 (4x)
 
     // Load 4 item lengths and initialize hashes
     // Stack layout: items[AX..AX+3] pointers and lengths
@@ -197,25 +197,25 @@ simd_chunk_loop:
 
     // k *= prime64_2
     // AVX2 doesn't have 64-bit multiply, so we extract to scalar, multiply, and reinsert
-    VMOVDQU avx2_prime64_2<>(SB), Y3
+    VMOVDQU avx2_prime64_2(SB), Y3
 
     // Extract each 64-bit value, multiply, and reinsert
     VEXTRACTI128 $0, Y2, X4
     VPEXTRQ $0, X4, R9
-    IMULQ prime64_2<>(SB), R9
+    IMULQ prime64_2(SB), R9
     VPINSRQ $0, R9, X4, X4
 
     VPEXTRQ $1, X4, R9
-    IMULQ prime64_2<>(SB), R9
+    IMULQ prime64_2(SB), R9
     VPINSRQ $1, R9, X4, X4
 
     VEXTRACTI128 $1, Y2, X5
     VPEXTRQ $0, X5, R9
-    IMULQ prime64_2<>(SB), R9
+    IMULQ prime64_2(SB), R9
     VPINSRQ $0, R9, X5, X5
 
     VPEXTRQ $1, X5, R9
-    IMULQ prime64_2<>(SB), R9
+    IMULQ prime64_2(SB), R9
     VPINSRQ $1, R9, X5, X5
 
     VINSERTI128 $1, X5, Y2, Y2
@@ -244,25 +244,25 @@ simd_chunk_loop:
     VINSERTI128 $1, X4, Y2, Y2
 
     // k *= prime64_1
-    VMOVDQU avx2_prime64_1<>(SB), Y3
+    VMOVDQU avx2_prime64_1(SB), Y3
 
     // Extract each 64-bit value, multiply, and reinsert
     VEXTRACTI128 $0, Y2, X4
     VPEXTRQ $0, X4, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $0, R9, X4, X4
 
     VPEXTRQ $1, X4, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $1, R9, X4, X4
 
     VEXTRACTI128 $1, Y2, X5
     VPEXTRQ $0, X5, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $0, R9, X5, X5
 
     VPEXTRQ $1, X5, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $1, R9, X5, X5
 
     VINSERTI128 $1, X5, Y2, Y2
@@ -295,26 +295,26 @@ simd_chunk_loop:
     // Extract each 64-bit value, multiply, and reinsert
     VEXTRACTI128 $0, Y2, X4
     VPEXTRQ $0, X4, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $0, R9, X4, X4
 
     VPEXTRQ $1, X4, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $1, R9, X4, X4
 
     VEXTRACTI128 $1, Y2, X5
     VPEXTRQ $0, X5, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $0, R9, X5, X5
 
     VPEXTRQ $1, X5, R9
-    IMULQ prime64_1<>(SB), R9
+    IMULQ prime64_1(SB), R9
     VPINSRQ $1, R9, X5, X5
 
     VINSERTI128 $1, X5, Y2, Y2
 
     // hash + prime64_4
-    VMOVDQU avx2_prime64_4<>(SB), Y3
+    VMOVDQU avx2_prime64_4(SB), Y3
     VPADDQ Y3, Y2, Y1
 
     ADDQ $8, CX
@@ -363,7 +363,7 @@ simd_item_remainder:
     JGE  simd_item_finalize
 
     MOVBQZX (R8)(CX*1), R15
-    MOVQ prime64_5<>(SB), R14
+    MOVQ prime64_5(SB), R14
     IMULQ R14, R15
     XORQ R15, BP
 
@@ -371,7 +371,7 @@ simd_item_remainder:
     ROLQ $11, R15
     MOVQ R15, BP
 
-    MOVQ prime64_1<>(SB), R15
+    MOVQ prime64_1(SB), R15
     IMULQ R15, BP
 
     INCQ CX
@@ -383,14 +383,14 @@ simd_item_finalize:
     SHRQ $33, R15
     XORQ R15, BP
 
-    MOVQ prime64_2<>(SB), R15
+    MOVQ prime64_2(SB), R15
     IMULQ R15, BP
 
     MOVQ BP, R15
     SHRQ $29, R15
     XORQ R15, BP
 
-    MOVQ prime64_3<>(SB), R15
+    MOVQ prime64_3(SB), R15
     IMULQ R15, BP
 
     MOVQ BP, R15
@@ -414,22 +414,26 @@ simd_fp_ok:
 
     // Calculate i2: Compute XXHash64 of fingerprint byte in CL, store in R9
     MOVBQZX CL, R9                  // R9 = fp
-    MOVQ    prime64_5<>(SB), R11   // R11 = prime64_5
-    ADDQ    $1, R11                // seed = prime64_5 + 1 (length=1)
-    ADDQ    R9, R11                // hash = seed + fp
-    MOVQ    R11, R9                // R9 = hash
-    // Avalanche (as in XXHash64 for <=8 bytes)
-    MOVQ    R9, R12
-    SHRQ    $33, R12
-    XORQ    R12, R9
-    IMULQ   prime64_2<>(SB), R9
-    MOVQ    R9, R12
-    SHRQ    $29, R12
-    XORQ    R12, R9
-    IMULQ   prime64_3<>(SB), R9
-    MOVQ    R9, R12
-    SHRQ    $32, R12
-    XORQ    R12, R9
+    MOVQ    prime64_5(SB), R11   // R11 = prime64_5
+    ADDQ    $1, R11                // R11 = prime64_5 + 1 (initial hash for length=1)
+    IMULQ   prime64_5(SB), R9      // R9 = fp * prime64_5
+    XORQ    R9, R11                // R11 ^= (fp * prime64_5)
+    // Rotate left by 11 and multiply by prime64_1
+    ROLQ    $11, R11               // R11 = rotl64(R11, 11)
+    IMULQ   prime64_1(SB), R11     // R11 *= prime64_1
+    // Avalanche (as in XXHash64 finalization)
+    MOVQ    R11, R9
+    SHRQ    $33, R9
+    XORQ    R9, R11
+    IMULQ   prime64_2(SB), R11
+    MOVQ    R11, R9
+    SHRQ    $29, R9
+    XORQ    R9, R11
+    IMULQ   prime64_3(SB), R11
+    MOVQ    R11, R9
+    SHRQ    $32, R9
+    XORQ    R9, R11
+    MOVQ    R11, R9                // R9 = final hash
     // Now R9 = hash(fp)
     XORQ    R8, R9
     ANDQ    R13, R9            // i2
@@ -461,7 +465,7 @@ scalar_loop:
     MOVQ (DI)(BX*1), R8     // data ptr
     MOVQ 8(DI)(BX*1), CX    // length
 
-    MOVQ prime64_5<>(SB), BP
+    MOVQ prime64_5(SB), BP
     ADDQ CX, BP
 
 scalar_chunk_loop:
@@ -470,15 +474,15 @@ scalar_chunk_loop:
 
     MOVQ (R8), R9
     MOVQ R9, R15
-    IMULQ prime64_2<>(SB), R15
+    IMULQ prime64_2(SB), R15
 
     ROLQ $31, R15
-    IMULQ prime64_1<>(SB), R15
+    IMULQ prime64_1(SB), R15
 
     XORQ R15, BP
     ROLQ $27, BP
-    IMULQ prime64_1<>(SB), BP
-    ADDQ prime64_4<>(SB), BP
+    IMULQ prime64_1(SB), BP
+    ADDQ prime64_4(SB), BP
 
     ADDQ $8, R8
     SUBQ $8, CX
@@ -490,11 +494,11 @@ scalar_final_bytes:
 
 scalar_byte_loop:
     MOVBQZX (R8), R15
-    IMULQ prime64_5<>(SB), R15
+    IMULQ prime64_5(SB), R15
     XORQ R15, BP
 
     ROLQ $11, BP
-    IMULQ prime64_1<>(SB), BP
+    IMULQ prime64_1(SB), BP
 
     INCQ R8
     DECQ CX
@@ -504,12 +508,12 @@ scalar_finalize:
     MOVQ BP, R15
     SHRQ $33, R15
     XORQ R15, BP
-    IMULQ prime64_2<>(SB), BP
+    IMULQ prime64_2(SB), BP
 
     MOVQ BP, R15
     SHRQ $29, R15
     XORQ R15, BP
-    IMULQ prime64_3<>(SB), BP
+    IMULQ prime64_3(SB), BP
 
     MOVQ BP, R15
     SHRQ $32, R15
@@ -532,22 +536,26 @@ scalar_fp_ok:
 
     // Calculate i2: hash the fingerprint
     MOVBQZX CL, R9                  // R9 = fp
-    MOVQ    prime64_5<>(SB), R11   // R11 = prime64_5
-    ADDQ    $1, R11                // seed = prime64_5 + 1 (length=1)
-    ADDQ    R9, R11                // hash = seed + fp
-    MOVQ    R11, R9                // R9 = hash
+    MOVQ    prime64_5(SB), R11   // R11 = prime64_5
+    ADDQ    $1, R11                // R11 = prime64_5 + 1 (initial hash for length=1)
+    IMULQ   prime64_5(SB), R9      // R9 = fp * prime64_5
+    XORQ    R9, R11                // R11 ^= (fp * prime64_5)
+    // Rotate left by 11 and multiply by prime64_1
+    ROLQ    $11, R11               // R11 = rotl64(R11, 11)
+    IMULQ   prime64_1(SB), R11     // R11 *= prime64_1
     // Avalanche
-    MOVQ    R9, R12
-    SHRQ    $33, R12
-    XORQ    R12, R9
-    IMULQ   prime64_2<>(SB), R9
-    MOVQ    R9, R12
-    SHRQ    $29, R12
-    XORQ    R12, R9
-    IMULQ   prime64_3<>(SB), R9
-    MOVQ    R9, R12
-    SHRQ    $32, R12
-    XORQ    R12, R9
+    MOVQ    R11, R9
+    SHRQ    $33, R9
+    XORQ    R9, R11
+    IMULQ   prime64_2(SB), R11
+    MOVQ    R11, R9
+    SHRQ    $29, R9
+    XORQ    R9, R11
+    IMULQ   prime64_3(SB), R11
+    MOVQ    R11, R9
+    SHRQ    $32, R9
+    XORQ    R9, R11
+    MOVQ    R11, R9                // R9 = final hash
     // Now R9 = hash(fp)
     XORQ R8, R9
     ANDQ R13, R9            // i2
diff --git a/internal/hash/xxhash/xxhash_amd64.s b/internal/hash/xxhash/xxhash_amd64.s
index bf3cf90..4638ae2 100644
--- a/internal/hash/xxhash/xxhash_amd64.s
+++ b/internal/hash/xxhash/xxhash_amd64.s
@@ -4,16 +4,17 @@
 #include "textflag.h"
 
 // Constants for XXHash - stored as data
-DATA prime64_1<>+0(SB)/8, $11400714785074694791
-DATA prime64_2<>+0(SB)/8, $14029467366897019727
-DATA prime64_3<>+0(SB)/8, $1609587929392839161
-DATA prime64_4<>+0(SB)/8, $9650029242287828579
-DATA prime64_5<>+0(SB)/8, $2870177450012600261
-GLOBL prime64_1<>(SB), RODATA, $8
-GLOBL prime64_2<>(SB), RODATA, $8
-GLOBL prime64_3<>(SB), RODATA, $8
-GLOBL prime64_4<>(SB), RODATA, $8
-GLOBL prime64_5<>(SB), RODATA, $8
+// Note: These constants are shared with batch_avx2_amd64.s, so they cannot be file-private
+DATA prime64_1+0(SB)/8, $11400714785074694791
+DATA prime64_2+0(SB)/8, $14029467366897019727
+DATA prime64_3+0(SB)/8, $1609587929392839161
+DATA prime64_4+0(SB)/8, $9650029242287828579
+DATA prime64_5+0(SB)/8, $2870177450012600261
+GLOBL prime64_1(SB), RODATA|NOPTR, $8
+GLOBL prime64_2(SB), RODATA|NOPTR, $8
+GLOBL prime64_3(SB), RODATA|NOPTR, $8
+GLOBL prime64_4(SB), RODATA|NOPTR, $8
+GLOBL prime64_5(SB), RODATA|NOPTR, $8
 
 // hash64XXHashInternal computes XXHash64 for a single item
 // func hash64XXHashInternal(data []byte) uint64
@@ -23,7 +24,7 @@ TEXT ·hash64XXHashInternal(SB), NOSPLIT, $0-32
     MOVQ data_len+8(FP), CX    // CX = data length
     
     // Initialize hash = prime64_5 + len
-    MOVQ prime64_5<>(SB), AX   // AX = hash = prime64_5
+    MOVQ prime64_5(SB), AX   // AX = hash = prime64_5
     ADDQ CX, AX                // hash += len
     
     // Check if length >= 8
@@ -41,14 +42,14 @@ chunk_loop:
     // Process block: k = DX
     // k *= prime64_2
     MOVQ DX, SI
-    IMULQ prime64_2<>(SB), SI
+    IMULQ prime64_2(SB), SI
     // k = rotl64(k, 31)
     MOVQ SI, DX
     SHLQ $31, DX
     SHRQ $33, SI
     ORQ  DX, SI
     // k *= prime64_1
-    IMULQ prime64_1<>(SB), SI
+    IMULQ prime64_1(SB), SI
     // hash ^= k
     XORQ SI, AX
     // hash = rotl64(hash, 27) * prime64_1 + prime64_4
@@ -56,8 +57,8 @@ chunk_loop:
     SHLQ $27, SI
     SHRQ $37, AX
     ORQ  SI, AX
-    IMULQ prime64_1<>(SB), AX
-    MOVQ prime64_4<>(SB), SI
+    IMULQ prime64_1(SB), AX
+    MOVQ prime64_4(SB), SI
     ADDQ SI, AX
     
     ADDQ $8, BX
@@ -71,14 +72,14 @@ final_bytes:
     
 final_byte_loop:
     MOVBQZX (BX), SI
-    IMULQ prime64_5<>(SB), SI  // Multiply byte by prime64_5 first
+    IMULQ prime64_5(SB), SI  // Multiply byte by prime64_5 first
     XORQ SI, AX                // Then XOR with hash
     // Rotate left by 11
     MOVQ AX, SI
     SHLQ $11, SI
     SHRQ $53, AX
     ORQ  SI, AX
-    IMULQ prime64_1<>(SB), AX
+    IMULQ prime64_1(SB), AX
     INCQ BX
     DECQ CX
     JNZ  final_byte_loop
@@ -92,13 +93,13 @@ short_data:
     
 short_byte_loop:
     MOVBQZX (BX), SI
-    IMULQ prime64_5<>(SB), SI  // Multiply byte by prime64_5 first
+    IMULQ prime64_5(SB), SI  // Multiply byte by prime64_5 first
     XORQ SI, AX                // Then XOR with hash
     MOVQ AX, SI
     SHLQ $11, SI
     SHRQ $53, AX
     ORQ  SI, AX
-    IMULQ prime64_1<>(SB), AX
+    IMULQ prime64_1(SB), AX
     INCQ BX
     DECQ CX
     JNZ  short_byte_loop
@@ -110,14 +111,14 @@ hash_finalize:
     SHRQ $33, SI
     XORQ SI, AX
     // hash *= prime64_2
-    MOVQ prime64_2<>(SB), SI
+    MOVQ prime64_2(SB), SI
     IMULQ SI, AX
     // hash ^= hash >> 29
     MOVQ AX, SI
     SHRQ $29, SI
     XORQ SI, AX
     // hash *= prime64_3
-    MOVQ prime64_3<>(SB), SI
+    MOVQ prime64_3(SB), SI
     IMULQ SI, AX
     // hash ^= hash >> 32
     MOVQ AX, SI

From 025f35723017655cafa76e6511dfb8af8247899f Mon Sep 17 00:00:00 2001
From: shaia <shaia@outlook.com>
Date: Fri, 21 Nov 2025 07:59:14 +0200
Subject: [PATCH 2/4] fix(assembly): correct AVX2 constant symbol declarations

Fixed inconsistency in symbol declarations where DATA directives used
'<>' suffix but GLOBL and references didn't match. In Go assembly,
file-local symbols must use '<>' consistently in all three places:
- DATA declarations: symbol<>
- GLOBL declarations: symbol<>
- References in code: symbol<>

This fixes the linker errors for AVX2 vector constants.

Note: The 4-item SIMD crash persists - this was a separate symbol
consistency issue that was preventing compilation.
---
 internal/hash/xxhash/batch_avx2_amd64.s | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/internal/hash/xxhash/batch_avx2_amd64.s b/internal/hash/xxhash/batch_avx2_amd64.s
index 98afac9..b668e04 100644
--- a/internal/hash/xxhash/batch_avx2_amd64.s
+++ b/internal/hash/xxhash/batch_avx2_amd64.s
@@ -11,31 +11,31 @@ DATA avx2_prime64_1<>+0(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+8(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+16(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+24(SB)/8, $11400714785074694791
-GLOBL avx2_prime64_1(SB), RODATA, $32
+GLOBL avx2_prime64_1<>(SB), RODATA, $32
 
 DATA avx2_prime64_2<>+0(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+8(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+16(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+24(SB)/8, $14029467366897019727
-GLOBL avx2_prime64_2(SB), RODATA, $32
+GLOBL avx2_prime64_2<>(SB), RODATA, $32
 
 DATA avx2_prime64_3<>+0(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+8(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+16(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+24(SB)/8, $1609587929392839161
-GLOBL avx2_prime64_3(SB), RODATA, $32
+GLOBL avx2_prime64_3<>(SB), RODATA, $32
 
 DATA avx2_prime64_4<>+0(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+8(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+16(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+24(SB)/8, $9650029242287828579
-GLOBL avx2_prime64_4(SB), RODATA, $32
+GLOBL avx2_prime64_4<>(SB), RODATA, $32
 
 DATA avx2_prime64_5<>+0(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+8(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+16(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+24(SB)/8, $2870177450012600261
-GLOBL avx2_prime64_5(SB), RODATA, $32
+GLOBL avx2_prime64_5<>(SB), RODATA, $32
 
 // Shift constants for rotation
 DATA avx2_shift_31<>+0(SB)/8, $31
@@ -101,7 +101,7 @@ simd_loop:
     JG   scalar_loop
 
     // Load constants into YMM registers
-    VMOVDQU avx2_prime64_5(SB), Y0   // Y0 = prime64_5 (4x)
+    VMOVDQU avx2_prime64_5<>(SB), Y0   // Y0 = prime64_5 (4x)
 
     // Load 4 item lengths and initialize hashes
     // Stack layout: items[AX..AX+3] pointers and lengths
@@ -197,7 +197,7 @@ simd_chunk_loop:
 
     // k *= prime64_2
     // AVX2 doesn't have 64-bit multiply, so we extract to scalar, multiply, and reinsert
-    VMOVDQU avx2_prime64_2(SB), Y3
+    VMOVDQU avx2_prime64_2<>(SB), Y3
 
     // Extract each 64-bit value, multiply, and reinsert
     VEXTRACTI128 $0, Y2, X4
@@ -244,7 +244,7 @@ simd_chunk_loop:
     VINSERTI128 $1, X4, Y2, Y2
 
     // k *= prime64_1
-    VMOVDQU avx2_prime64_1(SB), Y3
+    VMOVDQU avx2_prime64_1<>(SB), Y3
 
     // Extract each 64-bit value, multiply, and reinsert
     VEXTRACTI128 $0, Y2, X4
@@ -314,7 +314,7 @@ simd_chunk_loop:
     VINSERTI128 $1, X5, Y2, Y2
 
     // hash + prime64_4
-    VMOVDQU avx2_prime64_4(SB), Y3
+    VMOVDQU avx2_prime64_4<>(SB), Y3
     VPADDQ Y3, Y2, Y1
 
     ADDQ $8, CX

From 0e5190e41eb350bd65c3570ea9e5094694feb7d9 Mon Sep 17 00:00:00 2001
From: shaia <shaia@outlook.com>
Date: Fri, 21 Nov 2025 08:12:09 +0200
Subject: [PATCH 3/4] fix(assembly): add NOPTR flags to AVX2 constant
 declarations

Add RODATA|NOPTR flags to all AVX2 constant GLOBL declarations.
Since these constants contain only numeric values (no pointers),
the NOPTR flag tells the garbage collector to skip scanning them.
---
 internal/hash/xxhash/batch_avx2_amd64.s | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/internal/hash/xxhash/batch_avx2_amd64.s b/internal/hash/xxhash/batch_avx2_amd64.s
index b668e04..ca93dc9 100644
--- a/internal/hash/xxhash/batch_avx2_amd64.s
+++ b/internal/hash/xxhash/batch_avx2_amd64.s
@@ -11,31 +11,31 @@ DATA avx2_prime64_1<>+0(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+8(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+16(SB)/8, $11400714785074694791
 DATA avx2_prime64_1<>+24(SB)/8, $11400714785074694791
-GLOBL avx2_prime64_1<>(SB), RODATA, $32
+GLOBL avx2_prime64_1<>(SB), RODATA|NOPTR, $32
 
 DATA avx2_prime64_2<>+0(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+8(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+16(SB)/8, $14029467366897019727
 DATA avx2_prime64_2<>+24(SB)/8, $14029467366897019727
-GLOBL avx2_prime64_2<>(SB), RODATA, $32
+GLOBL avx2_prime64_2<>(SB), RODATA|NOPTR, $32
 
 DATA avx2_prime64_3<>+0(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+8(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+16(SB)/8, $1609587929392839161
 DATA avx2_prime64_3<>+24(SB)/8, $1609587929392839161
-GLOBL avx2_prime64_3<>(SB), RODATA, $32
+GLOBL avx2_prime64_3<>(SB), RODATA|NOPTR, $32
 
 DATA avx2_prime64_4<>+0(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+8(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+16(SB)/8, $9650029242287828579
 DATA avx2_prime64_4<>+24(SB)/8, $9650029242287828579
-GLOBL avx2_prime64_4<>(SB), RODATA, $32
+GLOBL avx2_prime64_4<>(SB), RODATA|NOPTR, $32
 
 DATA avx2_prime64_5<>+0(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+8(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+16(SB)/8, $2870177450012600261
 DATA avx2_prime64_5<>+24(SB)/8, $2870177450012600261
-GLOBL avx2_prime64_5<>(SB), RODATA, $32
+GLOBL avx2_prime64_5<>(SB), RODATA|NOPTR, $32
 
 // Shift constants for rotation
 DATA avx2_shift_31<>+0(SB)/8, $31

From bd3fb44ad39b221aaa675369bb25f0cef0d19d08 Mon Sep 17 00:00:00 2001
From: shaia <shaia@outlook.com>
Date: Fri, 21 Nov 2025 08:29:55 +0200
Subject: [PATCH 4/4] fix(assembly): fix chunk offset bug and temporarily
 disable AVX2 SIMD
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

This commit makes progress on fixing the AMD64 AVX2 batch processing but
identifies a critical issue that requires further investigation.

**What's Fixed:**
1. Chunk offset handling: Changed simd_remainder to save the actual chunk
   loop offset (CX) instead of incorrectly loading min_length. This fixes
   the bug where items <8 bytes weren't being hashed at all.

2. Scalar item loading: Replaced complex offset calculations with explicit
   conditional jumps to load item data/length/hash for cleaner debugging.

3. Slice addressing: Simplified item pointer loading by using explicit
   address calculation (ADDQ DI, BX) instead of complex indexed addressing.

4. Stack alignment: Increased stack frame from 136 to 144 bytes for proper
   16-byte alignment required by AVX2 operations.

**Critical Issue - AVX2 Path Temporarily Disabled:**
The AVX2 SIMD code path crashes when trying to load item data pointers from
the stack. The crash occurs at line 180 when loading from stack offsets
32(SP), 48(SP), 64(SP), 80(SP). Instead of the valid pointers stored earlier,
garbage values (e.g., 0xc0000f8000) are loaded, causing access violations.

Possible causes under investigation:
- Stack frame corruption between store and load operations
- Incorrect stack addressing with NOSPLIT on Windows
- AVX2 SIMD operations inadvertently corrupting stack memory
- Issue with how slice data is loaded from the items parameter

The scalar fallback path works correctly and all tests pass with it enabled.
For now, the SIMD path is disabled (JMP scalar_loop) until this can be
properly debugged with a native debugger.

**Testing:**
- All tests pass with scalar path: ✅
- Tests 1-3 items: ✅ PASS (uses scalar)
- Tests 4+ items: ✅ PASS (forced to scalar)
- Scalar path produces correct hash values matching reference implementation
---
 internal/hash/xxhash/batch_avx2_amd64.s | 89 +++++++++++++++++--------
 1 file changed, 62 insertions(+), 27 deletions(-)

diff --git a/internal/hash/xxhash/batch_avx2_amd64.s b/internal/hash/xxhash/batch_avx2_amd64.s
index ca93dc9..315e2b6 100644
--- a/internal/hash/xxhash/batch_avx2_amd64.s
+++ b/internal/hash/xxhash/batch_avx2_amd64.s
@@ -65,7 +65,8 @@ GLOBL avx2_shift_37<>(SB), RODATA, $32
 // processBatchXXHashAVX2 computes XXHash64 for multiple items in batch using AVX2
 // Processes 4 items in parallel using 256-bit SIMD registers
 // func processBatchXXHashAVX2(items [][]byte, results []HashResult, fingerprintBits, numBuckets uint)
-TEXT ·processBatchXXHashAVX2(SB), NOSPLIT, $136-64
+// Stack frame must be 16-byte aligned for AVX2 operations
+TEXT ·processBatchXXHashAVX2(SB), NOSPLIT, $144-64
     // Load arguments
     MOVQ items_base+0(FP), DI        // DI = items slice base
     MOVQ items_len+8(FP), SI         // SI = number of items
@@ -93,7 +94,23 @@ TEXT ·processBatchXXHashAVX2(SB), NOSPLIT, $136-64
     // Check if we can process 4 items in parallel
     MOVQ SI, R15
     SUBQ $4, R15
-    JL   scalar_loop  // If items < 4, use scalar
+    // TODO(fix): AVX2 SIMD path is currently broken on Windows - crashes when loading
+    // item pointers from stack. Issue appears to be related to stack frame corruption
+    // or incorrect addressing. Scalar fallback works correctly.
+    //
+    // The crash occurs at line 180 when trying to load item data pointers from stack
+    // offsets 32(SP), 48(SP), 64(SP), 80(SP). The loaded values are garbage
+    // (e.g., 0xc0000f8000) instead of the valid pointers that were stored earlier.
+    //
+    // Possible causes:
+    // - Stack frame corruption between store and load
+    // - Incorrect stack addressing with NOSPLIT on Windows
+    // - AVX2 operations corrupting stack
+    // - Issue with how slice data is being loaded from items parameter
+    //
+    // For now, force scalar path until this can be debugged properly with a debugger.
+    JMP  scalar_loop  // Force scalar path (TEMPORARY - see TODO above)
+    // JL   scalar_loop  // If items < 4, use scalar
 
 // Process 4 items in parallel using AVX2
 simd_loop:
@@ -107,31 +124,29 @@ simd_loop:
     // Stack layout: items[AX..AX+3] pointers and lengths
     MOVQ AX, BX
     IMULQ $24, BX     // BX = offset to items[AX]
+    ADDQ DI, BX       // BX = &items[AX]
 
     // Load item 0
-    MOVQ (DI)(BX*1), R8
-    MOVQ 8(DI)(BX*1), R9
+    MOVQ 0(BX), R8    // data ptr
+    MOVQ 8(BX), R9    // length
     MOVQ R8, 32(SP)   // item0 data ptr
     MOVQ R9, 40(SP)   // item0 length
 
     // Load item 1
-    ADDQ $24, BX
-    MOVQ (DI)(BX*1), R8
-    MOVQ 8(DI)(BX*1), R9
+    MOVQ 24(BX), R8   // data ptr
+    MOVQ 32(BX), R9   // length
     MOVQ R8, 48(SP)   // item1 data ptr
     MOVQ R9, 56(SP)   // item1 length
 
     // Load item 2
-    ADDQ $24, BX
-    MOVQ (DI)(BX*1), R8
-    MOVQ 8(DI)(BX*1), R9
+    MOVQ 48(BX), R8   // data ptr
+    MOVQ 56(BX), R9   // length
     MOVQ R8, 64(SP)   // item2 data ptr
     MOVQ R9, 72(SP)   // item2 length
 
     // Load item 3
-    ADDQ $24, BX
-    MOVQ (DI)(BX*1), R8
-    MOVQ 8(DI)(BX*1), R9
+    MOVQ 72(BX), R8   // data ptr
+    MOVQ 80(BX), R9   // length
     MOVQ R8, 80(SP)   // item3 data ptr
     MOVQ R9, 88(SP)   // item3 length
 
@@ -322,6 +337,9 @@ simd_chunk_loop:
 
 simd_remainder:
     // Process remaining bytes for each item individually (fallback to scalar)
+    // Save the chunk offset (number of bytes already processed)
+    MOVQ CX, 96(SP)   // Save chunk offset (overwrite min_length, no longer needed)
+
     // Extract hashes and continue scalar processing
     VEXTRACTI128 $0, Y1, X2
     VPEXTRQ $0, X2, R8
@@ -343,20 +361,37 @@ simd_finalize_loop:
     CMPQ DX, $4
     JGE  simd_finalize_done
 
-    // Get item data ptr, length, and hash
-    MOVQ DX, CX
-    SHLQ $4, CX       // CX = DX * 16
-    ADDQ $32, CX
-    MOVQ (SP)(CX*1), R8     // data ptr
-    MOVQ 8(SP)(CX*1), R9    // length
-
-    MOVQ DX, CX
-    SHLQ $3, CX
-    ADDQ $104, CX
-    MOVQ (SP)(CX*1), BP     // hash value
-
-    // Process from min_length to actual length
-    MOVQ 96(SP), CX         // CX = min_length (already processed)
+    // Get item data ptr, length, and hash based on DX (0..3)
+    // Use conditional jumps to select the correct stack offset
+    CMPQ DX, $0
+    JE   load_item0
+    CMPQ DX, $1
+    JE   load_item1
+    CMPQ DX, $2
+    JE   load_item2
+    // DX == 3
+    MOVQ 80(SP), R8    // item3 data ptr
+    MOVQ 88(SP), R9    // item3 length
+    MOVQ 128(SP), BP   // hash3
+    JMP  loaded_item
+load_item2:
+    MOVQ 64(SP), R8    // item2 data ptr
+    MOVQ 72(SP), R9    // item2 length
+    MOVQ 120(SP), BP   // hash2
+    JMP  loaded_item
+load_item1:
+    MOVQ 48(SP), R8    // item1 data ptr
+    MOVQ 56(SP), R9    // item1 length
+    MOVQ 112(SP), BP   // hash1
+    JMP  loaded_item
+load_item0:
+    MOVQ 32(SP), R8    // item0 data ptr
+    MOVQ 40(SP), R9    // item0 length
+    MOVQ 104(SP), BP   // hash0
+loaded_item:
+
+    // Process from chunk_offset to actual length
+    MOVQ 96(SP), CX         // CX = chunk_offset (bytes already processed in chunk loop)
 
 simd_item_remainder:
     CMPQ CX, R9