# Plan de scraping catalogue complet — guitares électriques

## Objectif
Scraper tout le catalogue **guitares électriques** de :
- Thomann
- Woodbrass

## Ce que le pipeline doit produire
Pour chaque produit :
- `merchant`
- `merchant_product_id` si détectable
- `product_url`
- `brand`
- `model`
- `title_raw`
- `price`
- `currency`
- `availability`
- `category_path`
- `primary_image_url`
- `selected_image_url`
- `images[]`
- `specs_raw`
- `specs_normalized`
- `scraped_at`

## Découpage recommandé

### Étape 1 — listings catalogue
- parcourir la pagination de la catégorie “guitares électriques”
- extraire toutes les URLs produit uniques
- stocker aussi le contexte listing : position, page, tri, etc.

### Étape 2 — fiches produit
Pour chaque URL produit :
- récupérer toutes les images
- récupérer les données de base (titre, prix, dispo)
- récupérer les specs visibles
- sérialiser en JSON brut

### Étape 3 — normalisation
Transformer les champs marchands vers une structure commune Riffmatch.

### Étape 4 — back-office image
Laisser le back-office choisir l'image de comparaison via `selected_image_url`.

## Important
Les sélecteurs HTML changent souvent. Les scripts fournis doivent être vus comme une base robuste, mais un premier run réel demandera presque sûrement un ajustement des sélecteurs Thomann et Woodbrass.
