-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathoutputs.html
More file actions
99 lines (99 loc) · 10.5 KB
/
outputs.html
File metadata and controls
99 lines (99 loc) · 10.5 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
<!DOCTYPE html><html>
<head>
<title></title>
<style type="text/css">
<!--
.xflip {
-moz-transform: scaleX(-1);
-webkit-transform: scaleX(-1);
-o-transform: scaleX(-1);
transform: scaleX(-1);
filter: fliph;
}
.yflip {
-moz-transform: scaleY(-1);
-webkit-transform: scaleY(-1);
-o-transform: scaleY(-1);
transform: scaleY(-1);
filter: flipv;
}
.xyflip {
-moz-transform: scaleX(-1) scaleY(-1);
-webkit-transform: scaleX(-1) scaleY(-1);
-o-transform: scaleX(-1) scaleY(-1);
transform: scaleX(-1) scaleY(-1);
filter: fliph + flipv;
}
-->
</style>
</head>
<body>
<a name=1></a>github.com/ttttttris<br/>
<b>Jiayi Tian</b><br/>
<a href="tel:+1 (805) 245 0298">+1 (805) 245 0298</a><br/>
| <a href="mailto:jiayi_tian@ucsb.edu">jiayi_tian@ucsb.edu</a><br/>
| <a href="https://www.linkedin.com/in/jiayi-tian-32b9652a5/">linkedin.com/in/jiayi-tian-32b9652a5/</a><br/>
<b>Focus on efficient LLM Training & Inference, Efficient CoT Reasoning.</b><br/>
<b>EDUCATION<br/>University of California, Santa Barbara</b>, <i>Ph.D. in Computer Engineering </i>| CA, USA <b>3.9/4.0</b><br/>
Fall 2025 - ongoing<br/>
<b>University of California, Santa Barbara</b>, <i>M.S. in Computer Engineering </i>| CA, USA <b>3.9/4.0</b><br/>
Fall 2023 - Fall 2025<br/>
<b>Nanjing University</b>, <i>B.Eng. in VLSI Design & System Integration </i>| China <b>4.5/5.0</b><br/>
Fall 2019 - Fall 2023<br/>
<b>INDUSTRIAL EXPERIENCE</b><br/>
<b>Intel Corporation, </b><i>Research Intern </i>| Hillsboro, OR<br/>
June. 2025 – Sep. 2025<br/>
• Proposed and implemented SkipKV, a training-free KV-cache compression framework featuring sentence-level<br/>
selective eviction and dynamic generation control for efficient CoT reasoning.<br/>
• Designed a semantic similarity–based scoring metric to identify and remove redundant sentence spans while main-<br/>
taining reasoning coherence.<br/>
• Introduced a dynamic steering mechanism to adapt hidden activations during inference, promoting concise and<br/>
stable outputs.<br/>
• Demonstrated strong results on long-reasoning tasks (e.g. AIME24, LiveCodeBench) with LRMs: up to 26.7%<br/>
higher accuracy vs. SoTA under equal compression, with 1.6× shorter generation and 1.7× higher throughput.<br/>
<b>Intel Corporation, </b><i>Research Intern </i>| Hillsboro, OR<br/>
June. 2024 - Sep. 2024<br/>
• Proposed and implemented a tensor-compressed Transformer training accelerator on FPGA, optimizing compute<br/>
ordering, dataflow, and memory allocation for LLMs.<br/>
• Designed a bidirectional tensor contraction scheme enabling substantial reduction in intermediate memory and<br/>
compute cost during long-sequence training and inference.<br/>
• Built an HLS-based training engine achieving up to 48× memory efficiency and 3.6× energy efficiency compared<br/>
with an Nvidia RTX 3090 GPU.<br/>
• Resulting paper accepted to IEEE TCAD.<br/>
<b>AMD-Xilinx Technology, </b><i>Co-Op/Intern </i>| Beijing, China<br/>
June 2023 - Sep 2023<br/>
• Developed a C++/HLS Transformer training framework with custom tensorized linear layers and nonlinear oper-<br/>
ations for LLM acceleration, achieved 30× ∼ 52× saving in model size for end-to-end Transformer training.<br/>
<b>SKILLS & RESEARCH INTERESTS<br/>Languages & Tools </b>Python, PyTorch, Huggingface, vLLM, C/C++, High-level Synthesis (HLS), Vivado/Vitis/XRT<br/>
Efficient Large Language Models (LLMs) Training/Inference, Efficient Large Reasoning Models (LRMs)<br/>
<b>ML & NLP</b><br/>
(Model Compression, KV Cache Compression, Pruning, Low-rank decomposition, Early Exit, Knowledge<br/>Distillation, Quantization)<br/>
<b>PUBLICATIONS & PREPRINTS</b><br/>
<b>SkipKV: Selective Skipping of KV Generation and Storage for Efficient Inference with Large Reasoning Models<br/>Jiayi Tian</b>, Seyedarmin Azizi, Yequan Zhao, Erfan Baghaei Potraghloo, Sean McPherson, Sharath Nittur Sridhar, Zhengyang Wang,<br/>Zheng Zhang, Massoud Pedram, Souvik Kundu, under review at MLSYS, 2025.<br/>
<b>Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM<br/></b>Ryan Solgi, Parsa Madinei, <b>Jiayi Tian</b>, Rupak Swaminathan, Jing Liu, Nathan Susanj, Zheng Zhang, under review at ARR Oct, 2025.<br/><a href="https://arxiv.org/pdf/2510.05544">arXiv preprint</a>.<br/>
<b>FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression<br/>Jiayi Tian</b>, Ryan Solgi, Jinming Lu, Yifan Yang, Hai Li, Zheng Zhang, under review at ARR Oct, 2025. <a href="https://arxiv.org/pdf/2505.23966">arXiv preprint.</a><br/>
<b>FETTA: Flexible and Efficient Hardware Accelerator for Tensorized Neural Network Training<br/></b>Jinming Lu, <b>Jiayi Tian</b>, Hai Li, Ian Young, Zheng Zhang, under review at IEEE Transactions on Computer-Aided Design of Integrated<br/>Circuits and Systems. <a href="https://arxiv.org/pdf/2504.06474">arXiv preprint</a>.<br/>
<b>Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization<br/>Jiayi Tian</b>, Jinming Lu, Hai Li, Xiangwei Wang, Cong (Callie) Hao, Ian Young, Zheng Zhang, <a href="https://ieeexplore.ieee.org/document/11121368">IEEE Transactions on Computer-Aided<br/>Design of Integrated Circuits and Systems (TCAD), 2025.</a><br/>
<b>BEBERT: Efficient and robust binary ensemble BERT<br/>Jiayi, Tian</b>, Chao Fang, Haonan Wang, and Zhongfeng Wang, <a href="https://ieeexplore.ieee.org/document/10096223">IEEE International Conference on Acoustics, Speech and Signal<br/>Processing (ICASSP), 2023.</a><br/>
<hr/>
<a name=2></a><b>RESEARCH PROJECTS</b><br/>
<b>Structural Pruning for Efficient LLM Inference via Low-rank Decomposition</b><br/>
Aug. 2024 - May. 2025<br/>
• Developed FLAT-LLM, a training-free, fine-grained compression method that leverages the low-rank structure of<br/>
the activation space to transform and compress the model weights.<br/>
• Introduced a novel training-free rank selection algorithm that allocates ranks using a greedy redistribution strategy<br/>
and can be integrated with existing low-rank LLM compression pipelines.<br/>
• Achieved strong performance on LLaMA-2, 3 and Mistral models with minimal calibration overhead (within<br/>
minutes), validated across language modeling and downstream tasks.<br/>
<b>Training Accelerator Design for Tensor-Compressed Transformer Models</b><br/>
Sep. 2023 - May. 2024<br/>
• Designed a tensor-compressed training framework for Transformer models, significantly reducing model size and<br/>
memory footprint.<br/>
• Developed a fixed bidirectional contraction path and an adaptive path-search algorithm to improve memory and<br/>
compute efficiency in long-sequence LLM training and inference.<br/>
<b>Binary-Quantized Ensemble LLM for Fast and Robust Language Model Inference</b><br/>
Apr. 2021 - June. 2023<br/>
• Developed BEBERT, a novel quantization-ensemble strategy enabling efficient and accurate 1-bit BERT inference.<br/>• Leveraged efficient knowledge distillation strategy for high training efficiency.<br/>• Achieved 13× model size reduction and 15× compute savings over standard BERT with minimal accuracy loss.<br/>• Proposed early-exit inference variant, further cutting compute by 20% ∼ 40% on GLUE benchmark.<br/>
<hr/>
</body>
</html>