data_immo/app.py at main · yos-r/data_immo · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
import streamlit as st
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import seaborn as sns
import time

# Importer les fonctions depuis le fichier model_functions.py
from model_functions import *

st.set_page_config(
    page_title="Analyse Immobilière ",
    page_icon="🏠",
    layout="wide",
    initial_sidebar_state="expanded"
)

st.markdown("""
<style>
    .main-header {
        font-size: 2.5rem;
        color: #1E3A8A;
        margin-bottom: 1rem;
    }
    .sub-header {
        font-size: 1.8rem;
        color: #2563EB;
        margin-top: 2rem;
        margin-bottom: 1rem;
    }
    .section-header {
        font-size: 1.5rem;
        color: #3B82F6;
        margin-top: 1.5rem;
        margin-bottom: 0.8rem;
    }
    .highlight {
        background-color: #EFF6FF;
        padding: 20px;
        border-radius: 5px;
        border-left: 5px solid #3B82F6;
        margin-bottom: 20px;
    }
    .info-box {
        background-color: #DBEAFE;
        padding: 15px;
        border-radius: 5px;
        margin-bottom: 15px;
    }
    .stat-card {
        background-color: #F8FAFC;
        padding: 20px;
        border-radius: 10px;
        box-shadow: 0 4px 6px rgba(0, 0, 0, 0.1);
        margin-bottom: 15px;
        text-align: center;
    }
    .footer {
        margin-top: 50px;
        padding-top: 20px;
        border-top: 1px solid #E5E7EB;
        text-align: center;
        font-size: 0.9rem;
        color: #6B7280;
    }
</style>
""", unsafe_allow_html=True)

st.title("🏠 Analyse du Marché Immobilier Tunisien")

# Introduction et contexte
with st.expander("📌 À propos de cette application", expanded=True):
    st.markdown("""
    <div class="highlight">
    <h4>Contexte</h4>
    <p>Cette application vous permet d'analyser en profondeur le marché immobilier tunisien à travers des données collectées depuis des sites de franchises immobilières  (Century 21, REMAX, Tecnocasa et Newkey). Que vous soyez un investisseur, un agent immobilier, ou simplement à la recherche d'un bien, cet outil vous fournit des insights précieux sur les tendances du marché.</p>

    <h4>Fonctionnalités</h4>
    <ul>
        <li><strong>Analyse exploratoire</strong> : Visualisez les distributions des prix, surfaces, et autres caractéristiques des biens</li>
        <li><strong>Traitement des données</strong> : Nettoyez et imputez les valeurs manquantes pour une analyse plus précise</li>
        <li><strong>Modélisation prédictive</strong> : Utilisez des algorithmes d'apprentissage automatique pour prédire les prix et identifier les facteurs déterminants</li>
        <li><strong>Segmentation géographique</strong> : Analysez les spécificités du marché par ville et quartier</li>
    </ul>
    </div>
    """, unsafe_allow_html=True)
uploaded_file = st.file_uploader("Télécharger un fichier CSV", type=['csv'])


# Fonction pour nettoyer et préparer les données
def preprocess_data(df):
    # Liste des colonnes numériques à convertir
    numeric_columns = ['price', 'size', 'rooms', 'bedrooms', 'bathrooms', 'parkings',
                      'construction_year', 'age', 'air_conditioning', 'central_heating',
                      'swimming_pool', 'elevator', 'garden', 'equipped_kitchen']

    # Convertir chaque colonne en numérique
    for col in numeric_columns:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')

    # Convertir les dates
    if 'listing_date' in df.columns:
        try:
            df['listing_date'] = pd.to_datetime(df['listing_date'], errors='coerce')
        except:
            pass

    df = df.replace(['\\N', 'N/A', 'NA', ''], np.nan)

    # Standardiser la casse pour les colonnes catégorielles
    categorical_columns = ['property_type', 'transaction', 'city', 'state', 'neighborhood', 'finishing', 'condition']
    for col in categorical_columns:
        if col in df.columns and df[col].dtype == 'object':
            # Convertir tout en minuscules pour standardiser
            df[col] = df[col].str.lower()

    return df

# Fonction pour générer les visualisations basiques
def basic_visualizations(df):
    # Visualisation par ville
    if 'city' in df.columns:
        st.subheader("Nombre de propriétés par ville")
        city_counts = df['city'].value_counts().reset_index()
        city_counts.columns = ['ville', 'nombre']
        city_counts['ville'] = city_counts['ville'].str.title()

        fig = px.bar(city_counts, x='ville', y='nombre',
                   title="Nombre de propriétés par ville")
        st.plotly_chart(fig, use_container_width=True)

    # Prix moyen par type de propriété
    if 'property_type' in df.columns and 'price' in df.columns:
        valid_price_df = df.dropna(subset=['price'])
        if not valid_price_df.empty:
            st.subheader("Prix moyen par type de propriété")
            price_by_type = valid_price_df.groupby('property_type')['price'].mean().reset_index()
            price_by_type.columns = ['type', 'prix_moyen']
            price_by_type['type'] = price_by_type['type'].str.capitalize()

            fig = px.bar(price_by_type, x='type', y='prix_moyen',
                       title="Prix moyen par type de propriété",
                       labels={'prix_moyen': 'Prix moyen (TND)', 'type': 'Type de bien'})
            st.plotly_chart(fig, use_container_width=True)

    # Relation taille vs prix
    if 'size' in df.columns and 'price' in df.columns:
        valid_data = df.dropna(subset=['size', 'price'])
        if len(valid_data) > 5:
            st.subheader("Relation entre taille et prix")

            if 'property_type' in valid_data.columns:
                plot_data = valid_data.copy()
                plot_data['property_type_display'] = plot_data['property_type'].str.capitalize()

                fig = px.scatter(plot_data, x='size', y='price',
                               color='property_type_display',
                               title="Relation entre taille et prix",
                               labels={'size': 'Surface (m²)', 'price': 'Prix (TND)',
                                     'property_type_display': 'Type de bien'})
            else:
                fig = px.scatter(valid_data, x='size', y='price',
                               title="Relation entre taille et prix",
                               labels={'size': 'Surface (m²)', 'price': 'Prix (TND)'})

            st.plotly_chart(fig, use_container_width=True)

# Nouvelles visualisations
def advanced_visualizations(df):
    if df is None or df.empty:
        st.warning("Aucune donnée disponible pour les visualisations avancées.")
        return

    col1, col2 = st.columns(2)

    # Distribution des conditions
    with col1:
        if 'condition' in df.columns and not df['condition'].isna().all():
            st.subheader("Distribution des états de propriété")
            condition_counts = df['condition'].value_counts().reset_index()
            condition_counts.columns = ['état', 'nombre']
            condition_counts['état'] = condition_counts['état'].str.capitalize()

            fig = px.pie(condition_counts, values='nombre', names='état',
                      title="Distribution des états de propriété",
                      color_discrete_sequence=px.colors.qualitative.Pastel)
            fig.update_traces(textposition='inside', textinfo='percent+label')
            st.plotly_chart(fig, use_container_width=True)

    # Distribution des finitions
    with col2:
        if 'finishing' in df.columns and not df['finishing'].isna().all():
            st.subheader("Niveau de finition des propriétés")
            finishing_counts = df['finishing'].value_counts().reset_index()
            finishing_counts.columns = ['finition', 'nombre']
            finishing_counts['finition'] = finishing_counts['finition'].str.capitalize()

            fig = px.pie(finishing_counts, values='nombre', names='finition',
                      title="Niveau de finition des propriétés",
                      color_discrete_sequence=px.colors.qualitative.Bold)
            fig.update_traces(textposition='inside', textinfo='percent+label')
            st.plotly_chart(fig, use_container_width=True)

    # Visualisation des transactions par quartier
    if 'transaction' in df.columns and 'neighborhood' in df.columns and not df['neighborhood'].isna().all():
        st.subheader("Types de transaction par quartier")
        try:
            transaction_by_neighborhood = pd.crosstab(df['neighborhood'], df['transaction'])
            transaction_by_neighborhood = transaction_by_neighborhood.reset_index()
            transaction_by_neighborhood_melted = pd.melt(
                transaction_by_neighborhood,
                id_vars=['neighborhood'],
                var_name='transaction',
                value_name='count'
            )
            transaction_by_neighborhood_melted['neighborhood'] = transaction_by_neighborhood_melted['neighborhood'].str.title()
            transaction_by_neighborhood_melted['transaction'] = transaction_by_neighborhood_melted['transaction'].str.capitalize()

            # Limiter aux 15 quartiers les plus fréquents pour lisibilité
            top_neighborhoods = df['neighborhood'].value_counts().nlargest(15).index
            filtered_data = transaction_by_neighborhood_melted[
                transaction_by_neighborhood_melted['neighborhood'].str.lower().isin(top_neighborhoods)
            ]

            if not filtered_data.empty:
                fig = px.bar(filtered_data, x='neighborhood', y='count', color='transaction',
                           title="Types de transaction par quartier (top 15)",
                           labels={'count': 'Nombre', 'neighborhood': 'Quartier', 'transaction': 'Type de transaction'},
                           barmode='stack')
                fig.update_layout(xaxis={'categoryorder': 'total descending'})
                st.plotly_chart(fig, use_container_width=True)
        except Exception as e:
            st.warning(f"Impossible de générer la visualisation des transactions par quartier: {e}")

    # Matrice de corrélation
    numeric_df = df.select_dtypes(include=['number'])
    if numeric_df.shape[1] > 2:
        st.subheader("Matrice de corrélation")

        # Sélectionner seulement les colonnes numériques et supprimer les colonnes avec trop de NA
        cols_to_keep = numeric_df.columns[numeric_df.isnull().mean() < 0.5]
        if len(cols_to_keep) >= 2:  # Besoin d'au moins 2 colonnes pour une corrélation
            try:
                corr_df = numeric_df[cols_to_keep].corr()

                fig = px.imshow(corr_df,
                               text_auto=True,
                               aspect="auto",
                               color_continuous_scale='RdBu_r',
                               title="Corrélation entre les variables")
                st.plotly_chart(fig, use_container_width=True)
            except Exception as e:
                st.warning(f"Impossible de générer la matrice de corrélation: {e}")

    # Distribution des prix par type de propriété
    if 'price' in df.columns and 'property_type' in df.columns:
        valid_data = df.dropna(subset=['price', 'property_type'])
        if len(valid_data) > 5:
            st.subheader("Distribution des prix par type de propriété")

            fig = px.box(valid_data, x='property_type', y='price',
                       labels={'property_type': 'Type de propriété', 'price': 'Prix (TND)'},
                       title="Distribution des prix par type de propriété",
                       category_orders={"property_type": sorted(valid_data['property_type'].unique())})

            fig.update_xaxes(tickangle=45)
            st.plotly_chart(fig, use_container_width=True)

# Nouvelle section pour les imputations de données
def imputation_section(df):
    st.header("Imputation des données manquantes")

    if df is None or df.empty:
        st.error("Aucune donnée disponible pour l'imputation.")
        return df

    # Création de l'interface d'imputation
    st.write("Cette section vous permet de compléter les valeurs manquantes dans votre jeu de données.")

    try:
        # Analyser les données manquantes
        missing_data_df = analyze_missing_data(df)

        col1, col2 = st.columns([2, 1])

        with col1:
            st.subheader("État des valeurs manquantes")
            st.dataframe(missing_data_df)

        with col2:
            # Graphique des valeurs manquantes
            missing_cols = missing_data_df[missing_data_df['Valeurs NA'] > 0]
            if not missing_cols.empty:
                fig = px.bar(
                    missing_cols.reset_index(),
                    x='index',
                    y='Pourcentage NA (%)',
                    title="Pourcentage de valeurs manquantes par colonne",
                    labels={'index': 'Colonne', 'Pourcentage NA (%)': '% manquant'}
                )
                fig.update_layout(xaxis={'categoryorder': 'total descending'})
                st.plotly_chart(fig, use_container_width=True)
            else:
                st.success("👍 Aucune valeur manquante dans vos données!")

        # Sélection des colonnes à imputer
        st.subheader("Choisir les colonnes à imputer")

        # Organisation par catégories
        price_cols = st.multiselect(
            "Colonnes de prix",
            [col for col in df.columns if col in ['price', 'price_ttc', 'listing_price']],
            [col for col in df.columns if col in ['price', 'price_ttc', 'listing_price'] and df[col].isna().sum() > 0]
        )

        condition_finishing_cols = st.multiselect(
            "Qualité et finition",
            [col for col in df.columns if col in ['condition', 'finishing']],
            [col for col in df.columns if col in ['condition', 'finishing'] and df[col].isna().sum() > 0]
        )

        age_year_cols = st.multiselect(
            "Âge et année de construction",
            [col for col in df.columns if col in ['age', 'construction_year']],
            [col for col in df.columns if col in ['age', 'construction_year'] and df[col].isna().sum() > 0]
        )

        room_cols = st.multiselect(
            "Pièces, chambres, salles de bain, etc.",
            [col for col in df.columns if col in ['rooms', 'bedrooms', 'bathrooms', 'parkings']],
            [col for col in df.columns if col in ['rooms', 'bedrooms', 'bathrooms', 'parkings'] and df[col].isna().sum() > 0]
        )

        binary_cols = st.multiselect(
            "Équipements (variables binaires)",
            [col for col in df.columns if df[col].nunique() <= 2 and col not in ['transaction', 'city', 'property_type', 'neighborhood']],
            [col for col in df.columns if df[col].nunique() <= 2 and df[col].isna().sum() > 0 and col not in ['transaction', 'city', 'property_type', 'neighborhood']]
        )

        # Bouton pour lancer l'imputation
        impute_button = st.button("Imputer les valeurs manquantes", type="primary")

        if impute_button:
            if df is None or df.empty:
                st.error("Aucune donnée disponible pour l'imputation.")
                return df

            # Créer une copie pour l'imputation
            try:
                df_imputed = df.copy()
                progress_placeholder = st.empty()

                with st.spinner("Imputation en cours..."):
                    # Imputation progressive avec barre de progression
                    progress_bar = st.progress(0)

                    # 1. Imputation des prix
                    #

                    # 2. Imputation de la condition
                    if 'condition' in condition_finishing_cols:
                        progress_placeholder.write("Imputation de la condition...")
                        try:
                            df_imputed = impute_condition_simple(df_imputed)
                            progress_bar.progress(40)
                            time.sleep(0.5)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation de la condition: {e}")

                    # 3. Imputation de la finition
                    if 'finishing' in condition_finishing_cols:
                        progress_placeholder.write("Imputation du niveau de finition...")
                        try:
                            df_imputed = impute_finishing_simple(df_imputed)
                            progress_bar.progress(60)
                            time.sleep(0.5)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation de la finition: {e}")

                    # 4. Imputation de l'âge et année de construction
                    if age_year_cols:
                        progress_placeholder.write("Imputation de l'âge et année de construction...")
                        try:
                            df_imputed = impute_property_year_age(
                                df_imputed,
                                impute_year='construction_year' in age_year_cols,
                                impute_age='age' in age_year_cols
                            )
                            df_imputed['construction_year']=2025-df_imputed['age']
                            progress_bar.progress(75)
                            time.sleep(0.5)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation de l'âge/année: {e}")

                    # 5. Imputation des caractéristiques binaires
                    if binary_cols:
                        progress_placeholder.write("Imputation des équipements...")
                        try:
                            df_imputed = impute_binary_amenities(df_imputed, binary_columns=binary_cols)
                            progress_bar.progress(85)
                            time.sleep(0.5)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation des équipements: {e}")

                    # 6. Imputation des pièces et caractéristiques
                    for room_col in room_cols:
                        progress_placeholder.write(f"Imputation de {room_col}...")
                        try:
                            df_imputed = simple_impute_rooms(df_imputed, rooms_col=room_col)
                            time.sleep(0.3)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation de {room_col}: {e}")
                    # imputation des prix
                    if price_cols:
                        progress_placeholder.write("Imputation des prix...")
                        try:
                            # df_imputed = impute_missing_prices(df_imputed)
                            df_imputed['price'] = df_imputed.groupby(['neighborhood', 'property_type','transaction'])['price'].transform(lambda x: x.fillna(x.mean()))
                            df_imputed['price_ttc'] = df_imputed.groupby(['neighborhood', 'property_type','transaction'])['price_ttc'].transform(lambda x: x.fillna(x.mean()))
                            df_imputed['price'] = df.groupby(['city','transaction'])['price'].transform(lambda x: x.fillna(x.mean()))
                            df_imputed['price_ttc'] = df.groupby(['city','transaction'])['price_ttc'].transform(lambda x: x.fillna(x.mean()))
                            df_imputed = df_imputed[df_imputed['price'].notnull()]

                            df_imputed['suffix'] = df_imputed['suffix'].fillna('TTC')

                            df_imputed['listing_price'] = df_imputed['listing_price'].fillna(df_imputed['price'])

                            progress_bar.progress(100)
                            time.sleep(0.5)
                        except Exception as e:
                            st.error(f"Erreur lors de l'imputation des prix: {e}")
                    progress_bar.progress(100)
                    progress_placeholder.empty()

                # Comparer l'avant/après
                st.subheader("Résultats de l'imputation")

                col1, col2 = st.columns(2)

                # Analyse des valeurs manquantes avant
                with col1:
                    df.drop(columns=['amenities'], inplace=True)
                    st.write("Avant imputation")
                    missing_before = analyze_missing_data(df)
                    st.dataframe(missing_before)

                    # Pourcentage global des données manquantes avant
                    total_elements = df.shape[0] * df.shape[1]
                    total_missing = df.isna().sum().sum()
                    pct_missing_before = (total_missing / total_elements) * 100

                    st.metric(
                        "Pourcentage global de données manquantes",
                        f"{pct_missing_before:.2f}%"
                    )

                # Analyse des valeurs manquantes après
                with col2:
                    st.write("Après imputation")
                    df_imputed.drop(columns=['amenities'], inplace=True)
                    missing_after = analyze_missing_data(df_imputed)
                    st.dataframe(missing_after)

                    # Pourcentage global des données manquantes après
                    total_missing_after = df_imputed.isna().sum().sum()
                    pct_missing_after = (total_missing_after / total_elements) * 100

                    st.metric(
                        "Pourcentage global de données manquantes",
                        f"{pct_missing_after:.2f}%",
                        f"-{pct_missing_before - pct_missing_after:.2f}%"
                    )

                # Visualisation de l'impact de l'imputation
                st.subheader("Visualisation de l'impact de l'imputation")

                # Sélectionnez une colonne pour visualiser l'impact de l'imputation
                all_imputed_cols = price_cols + condition_finishing_cols + age_year_cols + room_cols + binary_cols

                if True:
                    vis_col = st.selectbox(
                        "Sélectionner une colonne pour visualiser l'impact de l'imputation",
                        all_imputed_cols
                    )

                    if vis_col in df_imputed.columns:
                        col1, col2 = st.columns(2)

                        with col1:
                            st.write(f"Distribution de {vis_col} avant imputation")

                            if pd.api.types.is_numeric_dtype(df[vis_col]):
                                # Histogramme pour les données numériques
                                fig = px.histogram(
                                    df.dropna(subset=[vis_col]),
                                    x=vis_col,
                                    title=f"Distribution de {vis_col} avant imputation",
                                    nbins=30,
                                    opacity=0.7
                                )
                                st.plotly_chart(fig, use_container_width=True)
                            else:
                                # Barres pour les données catégorielles
                                value_counts = df[vis_col].value_counts().reset_index()
                                value_counts.columns = ['valeur', 'nombre']

                                fig = px.bar(
                                    value_counts,
                                    x='valeur',
                                    y='nombre',
                                    title=f"Distribution de {vis_col} avant imputation"
                                )
                                st.plotly_chart(fig, use_container_width=True)

                        with col2:
                            st.write(f"Distribution de {vis_col} après imputation")

                            if pd.api.types.is_numeric_dtype(df_imputed[vis_col]):
                                # Histogramme pour les données numériques
                                fig = px.histogram(
                                    df_imputed,
                                    x=vis_col,
                                    title=f"Distribution de {vis_col} après imputation",
                                    nbins=30,
                                    opacity=0.7
                                )
                                # Ajouter une ligne pour marquer les valeurs imputées
                                orig_values = df[~df[vis_col].isna()][vis_col]
                                fig.add_traces(
                                    px.histogram(
                                        orig_values,
                                        x=orig_values,
                                        nbins=30,
                                        opacity=0.7
                                    ).data
                                )
                                fig.data[0].marker.color = 'blue'  # Toutes les valeurs
                                fig.data[1].marker.color = 'lightgreen'  # Valeurs originales
                                fig.data[0].name = 'Toutes les valeurs (incluant imputées)'
                                fig.data[1].name = 'Valeurs originales uniquement'
                                fig.update_layout(barmode='overlay', legend=dict(orientation='h'))

                                st.plotly_chart(fig, use_container_width=True)
                            else:
                                # Barres pour les données catégorielles
                                value_counts = df_imputed[vis_col].value_counts().reset_index()
                                value_counts.columns = ['valeur', 'nombre']

                                fig = px.bar(
                                    value_counts,
                                    x='valeur',
                                    y='nombre',
                                    title=f"Distribution de {vis_col} après imputation"
                                )
                                st.plotly_chart(fig, use_container_width=True)

                # Option pour continuer avec les données imputées
                if st.button("Utiliser les données imputées pour la suite de l'analyse"):
                    st.session_state['df_imputed'] = df_imputed
                    st.success("✅ Les données imputées sont maintenant utilisées pour l'analyse!")
                    st.rerun()  # Réexécuter l'application pour utiliser les données imputées

                return df_imputed  # Retourner les données imputées

            except Exception as e:
                st.error(f"Erreur lors de l'imputation: {e}")
                st.info("Conseil: Vérifiez les données et essayez à nouveau.")
                return df
    except Exception as e:
        st.error(f"Erreur lors de l'analyse des données manquantes: {e}")
        return df

    return df


def simple_price_calculator(model, feature_names, df_regression, model_type="Régression Linéaire"):
    """
    Calculateur de prix simple corrigé pour éviter l'erreur de dimensionnalité
    """

    st.markdown("---")
    st.subheader(f"🔮 Calculateur de Prix - {model_type}")

    # Obtenir un échantillon des données d'entraînement pour la structure
    sample_row = df_regression.iloc[0:1].copy()  # Prendre la première ligne comme template

    # Statistiques pour valeurs par défaut
    stats = df_regression.describe()

    # Interface simple en 2 colonnes
    col1, col2 = st.columns(2)

    # Dictionnaire pour stocker les inputs utilisateur
    user_inputs = {}

    with col1:
        st.markdown("#### 📐 **Caractéristiques Principales**")

        # Surface
        if 'size' in feature_names:
            size_default = int(stats.loc['mean', 'size']) if 'size' in stats.columns else 100
            user_inputs['size'] = st.number_input("Surface (m²)", value=size_default, min_value=20, max_value=1000, step=5, key=f"size_{model_type}")

        # Pièces
        if 'rooms' in feature_names:
            rooms_default = int(stats.loc['mean', 'rooms']) if 'rooms' in stats.columns else 3
            user_inputs['rooms'] = st.number_input("Pièces", value=rooms_default, min_value=1, max_value=15, step=1, key=f"rooms_{model_type}")

        # Chambres
        if 'bedrooms' in feature_names:
            bedrooms_default = int(stats.loc['mean', 'bedrooms']) if 'bedrooms' in stats.columns else 2
            user_inputs['bedrooms'] = st.number_input("Chambres", value=bedrooms_default, min_value=0, max_value=10, step=1, key=f"bedrooms_{model_type}")

        # Salles de bain
        if 'bathrooms' in feature_names:
            bathrooms_default = int(stats.loc['mean', 'bathrooms']) if 'bathrooms' in stats.columns else 1
            user_inputs['bathrooms'] = st.number_input("Salles de bain", value=bathrooms_default, min_value=1, max_value=5, step=1, key=f"bathrooms_{model_type}")

        # Parkings
        if 'parkings' in feature_names:
            parkings_default = int(stats.loc['mean', 'parkings']) if 'parkings' in stats.columns else 1
            user_inputs['parkings'] = st.number_input("Parkings", value=parkings_default, min_value=0, max_value=5, step=1, key=f"parkings_{model_type}")

    with col2:
        st.markdown("#### ⭐ **Qualité & Équipements**")

        # Âge
        if 'age' in feature_names:
            age_default = int(stats.loc['mean', 'age']) if 'age' in stats.columns else 10
            user_inputs['age'] = st.number_input("Âge (années)", value=age_default, min_value=0, max_value=100, step=1, key=f"age_{model_type}")

        # État
        if 'condition' in feature_names:
            user_inputs['condition'] = st.selectbox(
                "État",
                options=[0, 1, 2, 3, 4],
                format_func=lambda x: ["À rénover", "À rafraîchir", "Bonne", "Excellente", "Neuf"][x],
                index=2,
                key=f"condition_{model_type}"
            )

        # Standing
        if 'finishing' in feature_names:
            user_inputs['finishing'] = st.selectbox(
                "Standing",
                options=[0, 1, 2, 3, 4],
                format_func=lambda x: ["Social", "Économique", "Moyen", "Haut", "Très haut"][x],
                index=2,
                key=f"finishing_{model_type}"
            )

        # Équipements
        if 'elevator' in feature_names:
            user_inputs['elevator'] = 1 if st.checkbox("🏢 Ascenseur", key=f"elevator_{model_type}") else 0

        if 'air_conditioning' in feature_names:
            user_inputs['air_conditioning'] = 1 if st.checkbox("❄️ Climatisation", key=f"ac_{model_type}") else 0

        if 'central_heating' in feature_names:
            user_inputs['central_heating'] = 1 if st.checkbox("🔥 Chauffage", value=True, key=f"heating_{model_type}") else 0

        if 'swimming_pool' in feature_names:
            user_inputs['swimming_pool'] = 1 if st.checkbox("🏊 Piscine", key=f"pool_{model_type}") else 0

        if 'garden' in feature_names:
            user_inputs['garden'] = 1 if st.checkbox("🌳 Jardin", key=f"garden_{model_type}") else 0

        if 'equipped_kitchen' in feature_names:
            user_inputs['equipped_kitchen'] = 1 if st.checkbox("👨‍🍳 Cuisine équipée", value=True, key=f"kitchen_{model_type}") else 0


    # CALCUL EN TEMPS RÉEL
    try:
        # Créer une copie de la ligne sample pour la prédiction
        prediction_row = sample_row.copy()

        # Mettre à jour avec les valeurs de l'utilisateur
        for feature, value in user_inputs.items():
            if feature in prediction_row.columns:
                prediction_row[feature] = value

        # Supprimer la colonne 'price' si elle existe (c'est la variable cible)
        if 'price' in prediction_row.columns:
            prediction_row = prediction_row.drop('price', axis=1)

        # S'assurer que toutes les features attendues sont présentes
        missing_features = set(feature_names) - set(prediction_row.columns)
        if missing_features:
            st.warning(f"⚠️ Features manquantes: {missing_features}")
            # Ajouter les features manquantes avec des valeurs par défaut
            for feature in missing_features:
                prediction_row[feature] = 0

        # Réorganiser les colonnes dans l'ordre attendu par le modèle
        prediction_row = prediction_row[feature_names]

        # Prédiction
        predicted_price = model.predict(prediction_row)[0]

        # AFFICHAGE DU PRIX
        st.markdown("### 💰 **Prix Estimé**")

        st.markdown(f"""
        <div style="
            background: linear-gradient(135deg, #2563eb 0%, #1d4ed8 100%);
            padding: 1.5rem;
            border-radius: 10px;
            text-align: center;
            color: white;
            margin: 1rem 0;
        ">
            <h1 style="margin: 0; font-size: 2.5rem; color: white;">
                {predicted_price:,.0f} TND
            </h1>
        </div>
        """, unsafe_allow_html=True)

        # Métriques rapides
        col1, col2, col3 = st.columns(3)

        with col1:
            if 'size' in user_inputs and user_inputs['size'] > 0:
                price_per_sqm = predicted_price / user_inputs['size']
                st.metric("Prix/m²", f"{price_per_sqm:,.0f} TND")

        with col2:
            if 'price' in df_regression.columns:
                market_avg = df_regression['price'].mean()
                diff_pct = ((predicted_price - market_avg) / market_avg) * 100
                st.metric("vs Marché", f"{diff_pct:+.1f}%")

        with col3:
            lower = predicted_price * 0.9
            upper = predicted_price * 1.1
            st.metric("Fourchette", f"{lower:,.0f} - {upper:,.0f}")

        # Debug info (optionnel)
        with st.expander("🔧 Info Debug", expanded=False):
            st.write(f"Features utilisées: {len(feature_names)}")
            st.write(f"Valeurs utilisateur: {len(user_inputs)}")
            st.write(f"Shape finale: {prediction_row.shape}")

            col1, col2 = st.columns(2)
            with col1:
                st.write("**Inputs utilisateur:**")
                for k, v in user_inputs.items():
                    st.write(f"• {k}: {v}")

            with col2:
                st.write("**Features modèle:**")
                for i, feature in enumerate(feature_names[:10]):  # Afficher les 10 premières
                    st.write(f"• {feature}")
                if len(feature_names) > 10:
                    st.write(f"... et {len(feature_names)-10} autres")

    except Exception as e:
        st.error(f"❌ Erreur dans le calcul: {str(e)}")

        # Debug détaillé
        st.write("**Debug détaillé:**")
        st.write(f"• Modèle attend: {len(feature_names)} features")
        st.write(f"• Features: {feature_names}")
        st.write(f"• User inputs: {len(user_inputs)} valeurs")

        if 'prediction_row' in locals():
            st.write(f"• Prediction row shape: {prediction_row.shape}")
            st.write(f"• Prediction row columns: {list(prediction_row.columns)}")


def supervised_learning_section(df, filtered_df):
    st.header("🤖 Apprentissage Supervisé - Prédiction des Prix et Qualification de l'estimation des prix")

    if df is None or filtered_df is None or df.empty or filtered_df.empty:
        st.error("❌ Aucune donnée disponible pour l'apprentissage supervisé.")
        return

    st.markdown("""
    <div class="info-box">
    L'apprentissage supervisé permet de prédire les prix immobiliers en analysant les relations entre
    les caractéristiques des propriétés et leurs prix, et de qualifier la qualité d'estimation. Trois algorithmes sont disponibles :
    Régression Linéaire, Random Forest et XGBoost.
    </div>
    """, unsafe_allow_html=True)


    st.subheader("🔧 Configuration du Modèle")

    col1, col2, col3 = st.columns(3)

    with col1:
        # Filtre par ville
        if 'city' in df.columns:
            city_options = ["Toutes"] + sorted(df['city'].dropna().unique().tolist())
            selected_city = st.selectbox("Ville pour le modèle", city_options, key="regression_city")
            selected_city = None if selected_city == "Toutes" else selected_city
        else:
            selected_city = None
            st.info("Information sur la ville non disponible")

    with col2:
        # Filtre par type de propriété
        if 'property_type' in df.columns:
            property_options = ["Tous"] + sorted(df['property_type'].dropna().unique().tolist())
            selected_property = st.selectbox("Type de propriété pour le modèle", property_options, key="regression_property")
            selected_property = None if selected_property == "Tous" else selected_property
        else:
            selected_property = None
            st.info("Information sur le type de propriété non disponible")

    with col3:
        # Filtre par type de transaction
        if 'transaction' in df.columns:
            transaction_options = ["Toutes"] + sorted(df['transaction'].dropna().unique().tolist())
            selected_transaction = st.selectbox("Type de transaction pour le modèle", transaction_options, key="regression_transaction")
            selected_transaction = None if selected_transaction == "Toutes" else selected_transaction
        else:
            selected_transaction = None
            st.info("Information sur le type de transaction non disponible")


    col1, col2 = st.columns([2, 1])

    with col1:
        algorithm = st.selectbox(
            "Sélectionner l'algorithme",
            [
                "Régression Linéaire",
                "Random Forest Classification Prix",  # ← Nouvelle option
                "XGBoost Classification Prix"  # ← Nouvelle option
            ],
            help="Choisissez l'algorithme d'apprentissage supervisé à utiliser"
        )

    with col2:
        # Options avancées
        with st.expander("⚙️ Options avancées"):
            test_size = st.slider("Taille ensemble test (%)", 10, 40, 20) / 100
            random_state = st.number_input("Graine aléatoire", value=42, min_value=0)

            # Paramètres spécifiques aux modèles
            if algorithm in ["Random Forest", "Comparaison des 3 modèles"]:
                n_estimators = st.slider("Nombre d'arbres (Random Forest)", 50, 500, 100)
                max_depth_rf = st.slider("Profondeur max (Random Forest)", 3, 20, 10)

            if algorithm in ["XGBoost Classification Prix", "Comparaison des 3 modèles"]:
                optimize_params = st.checkbox("Optimiser les hyperparamètres", value=False,
                                                    help="Recherche automatique des meilleurs paramètres",
                                                    key="xgb_class_optimize")

                threshold_low = st.slider("Seuil sous-estimation", 0.5, 0.9, 0.75, 0.05,
                                                key="xgb_class_threshold_low")
                threshold_high = st.slider("Seuil surestimation", 1.1, 1.5, 1.25, 0.05,
                                                key="xgb_class_threshold_high")
            if algorithm in ["Random Forest Classification Prix"]:
                pass


    def prepare_data_safely(df, selected_city, selected_property, selected_transaction):
        """Préparation sécurisée des données avec gestion d'erreurs"""
        try:
            df_work = df.copy()

            # Appliquer les filtres
            filters_applied = []
            if selected_city is not None:
                df_work = df_work[df_work['city'] == selected_city]
                filters_applied.append(f"Ville: {selected_city}")
            if selected_property is not None:
                df_work = df_work[df_work['property_type'] == selected_property]
                filters_applied.append(f"Type: {selected_property}")
            if selected_transaction is not None:
                df_work = df_work[df_work['transaction'] == selected_transaction]
                filters_applied.append(f"Transaction: {selected_transaction}")

            st.info(f"🔍 Filtres appliqués: {', '.join(filters_applied) if filters_applied else 'Aucun'}")

            # Vérifier qu'on a assez de données
            if len(df_work) < 10:
                st.error(f"❌ Pas assez de données après filtrage ({len(df_work)} observations). Minimum requis: 10")
                return None, None

            # Supprimer les lignes avec prix manquant
            df_work = df_work.dropna(subset=['price'])

            if len(df_work) < 10:
                st.error(f"❌ Pas assez de données avec prix valides ({len(df_work)} observations). Minimum requis: 10")
                return None, None

            # Préparer les données pour la régression
            df_regression = prepare_data_for_regression(df_work)

            # Vérifier les valeurs manquantes dans les caractéristiques
            numeric_cols = df_regression.select_dtypes(include=['number']).columns
            features_cols = [col for col in numeric_cols if col != 'price']

            # Afficher les statistiques de préparation
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("Observations après filtrage", len(df_work))
            with col2:
                st.metric("Observations avec prix valides", len(df_regression))
            with col3:
                st.metric("Caractéristiques disponibles", len(features_cols))

            # Traiter les valeurs manquantes dans les caractéristiques
            missing_in_features = df_regression[features_cols].isna().sum()
            if missing_in_features.sum() > 0:
                # st.warning("⚠️ Valeurs manquantes détectées dans les caractéristiques. Imputation en cours...")

                # Imputation simple
                from sklearn.impute import SimpleImputer
                imputer = SimpleImputer(strategy='median')
                df_regression[features_cols] = imputer.fit_transform(df_regression[features_cols])

                # st.success("✅ Imputation des valeurs manquantes terminée.")

            return df_regression, filters_applied

        except Exception as e:
            st.error(f"❌ Erreur lors de la préparation des données: {e}")
            return None, None


    if st.button("🚀 Entraîner le Modèle", type="primary"):
        with st.spinner("🔄 Préparation des données..."):
            df_regression, filters_applied = prepare_data_safely(
                df, selected_city, selected_property, selected_transaction
            )

        if df_regression is None:
            st.stop()

        try:
            st.success(f"✅ Données préparées: {len(df_regression)} observations prêtes pour l'entraînement")


            if algorithm == "Régression Linéaire":
                st.subheader("📈 Résultats - Régression Linéaire")

                with st.spinner("🔄 Entraînement de la régression linéaire..."):
                    try:
                        model, importance, metrics = regression_par_segment(
                            df_regression,
                            city=selected_city,
                            property_type=selected_property,
                            transaction=selected_transaction,
                            target_column='price'
                        )

                        # Afficher les métriques
                        display_regression_metrics(metrics, "Régression Linéaire")

                        # NOUVEAU: Affichage détaillé des coefficients
                        display_linear_regression_coefficients(importance, model if hasattr(model, 'intercept_') else None)

                        # Graphique d'importance des caractéristiques
                        display_feature_importance(importance, "Régression Linéaire", "Coefficient")

                        # Capturer et afficher les graphiques matplotlib
                        st.pyplot(plt.gcf())
                        plt.close()

                        # Enlever la variable cible ET les variables catégorielles non désirées

                    except Exception as e:
                        st.error(f"❌ Erreur lors de la régression linéaire: {e}")

            elif algorithm == "Random Forest Classification Prix":
                st.subheader("🌲 Classification Random Forest - Estimation des Prix")

                # Options spécifiques à la classification Random Forest
                with st.expander("⚙️ Options de Classification Random Forest", expanded=True):
                    col1, col2 = st.columns(2)

                    with col1:
                        optimize_params_rf = st.checkbox("Optimiser les hyperparamètres", value=False,
                                                        help="Recherche automatique des meilleurs paramètres",
                                                        key="rf_class_optimize")
                        test_size_rf = st.slider("Taille ensemble test (%)", 10, 40, 20,
                                                key="rf_class_test_size") / 100

                    with col2:
                        n_estimators_rf = st.slider("Nombre d'arbres", 50, 500, 200,
                                                key="rf_class_n_estimators")
                        max_depth_rf = st.slider("Profondeur max", 3, 20, 10,
                                                key="rf_class_max_depth")
                        threshold_low_rf = st.slider("Seuil sous-estimation", 0.5, 0.9, 0.75, 0.05,
                                                    key="rf_class_threshold_low")
                        threshold_high_rf = st.slider("Seuil surestimation", 1.1, 1.5, 1.25, 0.05,
                                                    key="rf_class_threshold_high")

                with st.spinner("🔄 Création des catégories de prix..."):