Skip to content

stupidboi02/DATN

Repository files navigation

DATN - Customer Segment Platform

Hệ thống xử lý, phân tích dữ liệu khách hàng đa tầng, real-time, trực quan & quản lý phân khúc thông minh


📑 Mục lục


1. Tổng quan hệ thống

Tổng quan hệ thống

1.1. Nguồn dữ liệu

1.2. Thu thập dữ liệu

  • Dữ liệu được Producer gọi tới API và đẩy vào hàng đợi Kafka real-time từng bản ghi một
  • Spark Streaming đọc từ luồng Kafka, chuẩn hoá cấu trúc dữ liệu và ghi vào HDFS

1.3. Xử lý dữ liệu

  • Dữ liệu thô được xử lý, làm sạch, biến đổi thành các chỉ số của hồ sơ khách hàng
  • Tính toán chỉ số tổng hợp của từng khách hàng theo từng ngày → tạo dashboard

1.4. Lập lịch giám sát

  • Quá trình ETL sẽ được lập lịch tự động và quản lý thông qua Apache Airflow

1.5. Triển khai

  • Docker: Triển khai Flask, Airflow, cụm Kafka, cụm Spark, cụm Hadoop, PostgreSQL, MongoDB

1.6. Nền tảng phân khúc

  • Phân khúc dựa trên luật: chỉ số + logic AND/OR
  • Ứng dụng Web: quản lý hồ sơ, quản lý phân khúc

2. Kiến trúc tổng thể

flowchart LR
    subgraph DataSource
        A1[Flask API]
    end
    subgraph Ingestion
        B1[Kafka Producer]
        B2[Kafka Broker]
    end
    subgraph Streaming
        C1[Spark Streaming]
    end
    subgraph Storage
        D1[HDFS]
    end
    subgraph Processing
        E1[Spark Batch]
    end
    subgraph Database
        F1[PostgreSQL]
        F2[MongoDB]
    end
    subgraph Workflow
        G1[Airflow DAG]
    end
    subgraph Presentation
        H1[Web Application]
    end

    A1 --> B1 --> B2 --> C1 --> D1
    G1 -.-> C1
    D1 --> E1
    G1 -.-> E1
    E1 --> F1
    E1 --> F2
    F1 --> H1
    F2 --> H1
Loading

3. Kết quả

Triển khai cụm Kafka
Kafka Cluster

Triển khai cụm Spark
Spark Cluster

Triển khai cụm Hadoop
Hadoop Cluster

DAG Airflow
Airflow DAG


4. Demo giao diện

Quản lý hồ sơ khách hàng

Tổng quan hồ sơ
Customer Overview

Chi tiết hồ sơ
Customer Detail

Trực quan biểu đồ
Visualization

Quản lý phân khúc

Segmentation 1
Segmentation 2

5. Công nghệ sử dụng

Thành phần Công nghệ
API nguồn Flask, Python
Streaming Apache Kafka, Spark
Lưu trữ HDFS, PostgreSQL, MongoDB
Xử lý ETL Apache Airflow
Triển khai Docker Compose
Application ReactJS, FastAPI

Đồ án tốt nghiệp - Customer Segment Platform

About

analyst logs from e-commerce

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors