Hệ thống xử lý, phân tích dữ liệu khách hàng đa tầng, real-time, trực quan & quản lý phân khúc thông minh
- Dataset: Ecommerce Behavior Data from Multi Category Store
- Xây dựng Flask Server trả data qua GET Endpoint
- Dữ liệu được Producer gọi tới API và đẩy vào hàng đợi Kafka real-time từng bản ghi một
- Spark Streaming đọc từ luồng Kafka, chuẩn hoá cấu trúc dữ liệu và ghi vào HDFS
- Dữ liệu thô được xử lý, làm sạch, biến đổi thành các chỉ số của hồ sơ khách hàng
- Tính toán chỉ số tổng hợp của từng khách hàng theo từng ngày → tạo dashboard
- Quá trình ETL sẽ được lập lịch tự động và quản lý thông qua Apache Airflow
- Docker: Triển khai Flask, Airflow, cụm Kafka, cụm Spark, cụm Hadoop, PostgreSQL, MongoDB
- Phân khúc dựa trên luật: chỉ số + logic AND/OR
- Ứng dụng Web: quản lý hồ sơ, quản lý phân khúc
flowchart LR
subgraph DataSource
A1[Flask API]
end
subgraph Ingestion
B1[Kafka Producer]
B2[Kafka Broker]
end
subgraph Streaming
C1[Spark Streaming]
end
subgraph Storage
D1[HDFS]
end
subgraph Processing
E1[Spark Batch]
end
subgraph Database
F1[PostgreSQL]
F2[MongoDB]
end
subgraph Workflow
G1[Airflow DAG]
end
subgraph Presentation
H1[Web Application]
end
A1 --> B1 --> B2 --> C1 --> D1
G1 -.-> C1
D1 --> E1
G1 -.-> E1
E1 --> F1
E1 --> F2
F1 --> H1
F2 --> H1
| Thành phần | Công nghệ |
|---|---|
| API nguồn | Flask, Python |
| Streaming | Apache Kafka, Spark |
| Lưu trữ | HDFS, PostgreSQL, MongoDB |
| Xử lý ETL | Apache Airflow |
| Triển khai | Docker Compose |
| Application | ReactJS, FastAPI |
⚡ Đồ án tốt nghiệp - Customer Segment Platform ⚡







