需要安装以下 R 包(在 R 控制台中运行):
install.packages(c("data.table", "dplyr", "tidyr", "ggplot2", "pheatmap", "qqman"))
# GAPIT3 需要从 GitHub 安装:
install.packages("devtools")
devtools::install_github("jiabowang/GAPIT3")
# rrBLUP 需要从 CRAN 安装:
install.packages("rrBLUP")pip install streamlit pandas plotly matplotlib numpy打开 R/01_data_preprocessing.R,确认第 17 行 DATA_DIR 路径正确:
DATA_DIR <- "../数据集/data_gwas" # 相对于 R/ 目录的路径在 项目一/ 目录 下打开 R 或 RStudio:
方式A — RStudio (推荐):
打开 R/01_data_preprocessing.R → 全选 → Ctrl+Enter 逐行运行 或 Source 全部运行。
方式B — 命令行 R:
cd "项目一"
Rscript R/01_data_preprocessing.R运行成功后,output/tables/ 下应生成以下文件:
snp_maf_qc.csv ← SNP质控信息(MAF、染色体、位置)
genotype_discovery_gapit.csv ← 发现群基因型(GAPIT格式)
genotype_validation_gapit.csv← 验证群基因型(GAPIT格式)
phenotype_discovery_*.csv ← 发现群表型(9个文件)
phenotype_validation_*.csv ← 验证群表型(9个文件)
snp_map.csv ← SNP位置信息
true_qtl_all.csv ← 真实QTL汇总
discovery_full.csv ← 发现群完整数据
validation_full.csv ← 验证群完整数据
项目一/
├── R/ ← R 分析脚本
│ ├── 01_data_preprocessing.R ← [当前] 数据预处理
│ ├── 02_population_structure.R ← [待做] 群体结构分析
│ ├── 03_variance_component.R ← [待做] 方差组分估计
│ ├── 04_gwas_analysis.R ← [待做] GWAS核心分析
│ ├── 05_validation.R ← [待做] 验证群分析
│ └── 06_heritability_gap.R ← [待做] 遗传力缺失分析
├── output/ ← 中间结果
│ ├── tables/ ← CSV表格
│ └── figures/ ← PNG图片
├── streamlit_app/ ← [待做] 展示网站
└── README.md