2018.3 SDAccel™ 開発環境チュートリアル

複数の計算ユニットの使用

概要

このチュートリアルでは、FPGA 上のカーネルインスタンスの数を増やすための柔軟なカーネルリンクプロセスを示します。カーネルの各インスタンスは、計算ユニット (CU) とも呼ばれます。このプロセスを使用すると、統合されたホスト/カーネルシステムの並列処理が向上します。

背景

SDAccel™ ツールでは、デフォルトではカーネルごとに 1 つのハードウェアインスタンス (計算ユニット) が作成されます。ホストプログラムは、異なるデータセットに対して同じカーネルを複数回使用できます。この場合、カーネルに対して複数の計算ユニットを生成して、これらの計算ユニットを同時実行すると、システム全体のパフォーマンスを向上できます。

詳細は、『SDAccel プログラマガイド』 (UG1277) を参照してください。

チュートリアル例の説明

このチュートリアルでは、画像フィルター例を使用して複数の計算ユニットの機能を示します。ホストアプリケーションは、画像を処理して Y、U、および V プレーンを抽出し、カーネルを 3 回実行して画像の各プレーンをフィルター処理します。デフォルトでは、FPGA にはカーネルのハードウェアインスタンスが 1 つしか含まれないので、これら 3 つのカーネルは同じハードウェアリソースを使用して順次実行されます。このチュートリアルでは、ホストアプリケーションが呼び出す計算ユニットの数を増やし、Y、U、および V プレーンを同時にフィルター処理する方法を示します。

内容

このチュートリアルでは、次を実行します。

新しいアプリケーションプロジェクトを作成し、ソースファイルをインポートします。
ハードウェアエミュレーションを実行し、エミュレーションレポートを参照して、カーネルが順に複数回実行されることを確認します。
ホストコードを変更し、コマンドを順不同に実行できるようにします。
カーネルリンクプロセスを変更し、同じカーネルのインスタンスを複数作成します。
ハードウェアエミュレーションを再実行し、計算ユニットが同時実行されることを確認します。

チュートリアル手順

ワークスペースの設定

次のコマンドを使用してサンプルデザインのディレクトリに移動します。
```
cd using-multiple-cu/reference-files/
```
次のコマンドを使用して SDx™ 環境 GUI を起動します。
```
sdx
```
ワークスペースを指定し、新しいアプリケーションプロジェクトを作成して、プロジェクトを名前を filter2d に指定します。
プラットフォームとして xilinx_u200_xdma_201830_1 を選択します。
[Templates] ページで [Empty Application] を選択し、[Finish] をクリックします。

プロジェクトが作成され、指定したワークスペースで開きます。

デザインの設定

[Project Explorer] ビューで src/host ディレクトリからホストソースファイルをインポートし、すべてのファイルを選択します。
[Project Explorer] ビューで、src/kernel ディレクトリから Filter2DKernel.xo カーネルオブジェクトファイルをインポートします。

注記: このチュートリアルで使用するカーネルコードは、既にコンパイル済みのオブジェクトファイル (.xo) です。実際には、Filter2DKernel.xo ファイルは、C/C++ または RTL のいずれかから生成されたものです。コンパイル済みオブジェクトコードから開始する場合は、どちらでも基本的には同じです。.xo ファイルから開始しても、リンクプロセスをカスタマイズすることは可能です。

メインプロジェクトウィンドウで、ハードウェア関数として Filter2DKernel を選択します。
ホストコードリンカーオプションを指定します。
ホストコードでは、画像ファイルの演算に OpenCV™ ライブラリが使用されるので、関連するリンカーオプションを指定する必要があります。
[Project Explorer] ビューで filter2d プロジェクトの最上位フォルダーを右クリックし、[C/C++ Build Settings] をクリックします。
[Settings] ダイアログボックスの [Tool Settings] タブで、[SDx GCC Host Linker (x86_64)] を選択します。
[Settings] ダイアログボックスの上部で、[Configuration] ドロップダウンリストから [All Configuration] を選択し、リンカーオプションがすべてのフローに適用されるようにします。
[Expert Settings: Command line pattern] フィールドの現在の文字列の最後に、次の文字列を追加します。

  -L${XILINX_SDX}/lnx64/tools/opencv -lopencv_core -lopencv_highgui -Wl,-rpath,${XILINX_SDX}/lnx64/tools/opencv

[Apply and Close] をクリックします。
ランタイム引数を設定します。
[Run] メニューから [Run Configurations] をクリックし、[Arguments] タブで [Program arguments] フィールドに -x ../binary_container_1.xclbin -i ../../../../img/test.bmp -n 1 と入力します。

ハードウェアエミュレーションの実行

[Active build configuration] を [Emulation-HW] に設定し、[Run] ボタン () をクリックしてハードウェアエミュレーションを実行します。

ホストコードの確認

エミュレーションを実行中に、ホストコードを確認してみます。[Project Explorer] ビューで src フォルダーを展開し、host.cpp ファイルをダブルクリックして開きます。

266 ～ 268 行目にスクロールし、Y、U、および V チャネルを処理するためにフィルター関数が 3 回呼び出されていることを確認します。

この関数は、80 行目から記述されています。下の抜粋部分で、カーネル引数が設定され、カーネルが clEnqueueTask コマンドにより実行されます。

これら 3 つの clEnqueueTask コマンドは、1 つの順序どおりのコマンドキューを使用してキューに追加されます (75 行目)。このコマンドキューを使用するすべてのコマンドは、キューに追加された順序で実行されます。

エミュレーション結果

ハードウェアエミュレーションの実行が終了したら、左下にある [Assistant] ビューをクリックします。[Emulation-HW] → [filter2d-Default] を展開します。ここから、プロファイルサマリ (Profile Summary) およびアプリケーションタイムライン (Application Timeline) などの重要なレポートを開くことができます。

[Profile Summary] レポートをダブルクリックして [Reports] ビューに開きます。

このレポートには、アプリケーションがどうのように実行されたかに関連するデータが表示されます。
「Top Kernel Execution」セクションを見ると、カーネルが 3 回実行されていることがわかります。

[Emulation-HW] の [Application Timeline] レポートを開きます。
- アプリケーションタイムラインレポートは、ホストとデバイスのイベント情報を収集し、共通のタイムラインに表示します。これは、システムの全体的な状態とパフォーマンスを視覚的に表示して理解するのに役立ちます。
- タイムラインの最下部に、ホストからキューに追加された各カーネルに 1 本ずつ、合計 3 本の青いバーがあります。1 つの順序どおりのコマンドキューが使用されているので、ホストはカーネル実行を順にキューに追加します。
- 青いバーの下に、各カーネル実行に 1 本ずつ、合計 3 本の緑色のバーがあります。これらは、FPGA で順に実行されます。

カーネルを同時にキューに追加するためのホストコードの変更

ホストコードの 75 行目を変更して、順不同コマンドキューを宣言します。

変更前:

mQueue   = clCreateCommandQueue(Context, Device, CL_QUEUE_PROFILING_ENABLE, &mErr);

変更後:

mQueue   = clCreateCommandQueue(Context, Device, CL_QUEUE_PROFILING_ENABLE | CL_QUEUE_OUT_OF_ORDER_EXEC_MODE_ENABLE, &mErr);

Ctrl + S キーを押してファイルを保存します。

オプションの手順: 変更したホストコードでハードウェアエミュレーションを実行できます。ハードウェアエミュレーションを実行する場合、タイムライントレースを使用して、順不同コマンドキューを使用することによりカーネルがほぼ同時に実行できるようになることを確認します。

ホストはこれらの実行を同時にスケジューリングできますが、FPGA 上にあるカーネルインスタンスに制限があるので、一部の実行要求は遅れます (FPGA ではカーネルは順次実行される)。

次の手順では、FPGA 上のカーネルインスタンスの数を増やして、ホストカーネルを同時に実行できるようにします。

1 つの順不同キューを使用する代わりに、複数の順序どおりのキューを使用して、ホストコードから同じ同時コマンド実行を達成できます。詳細は、この SDAccel Github ホストコード例を参照してください。この例では、1 つの順不同コマンドキューを使用した方法と複数の順序どおりのコマンドキューを使用した方法を示しています。

カーネルインスタンスの数の増加

次の手順に従って、カーネルインスタンスの数を 3 に増加します。

[Filter2D] タブをクリックして [SDx Project Settings] に戻ります。
ウィンドウの下部にある [Hardware Functions] セクションを見つけます。
計算ユニットの数を 1 から 3 に増やします。

ハードウェアエミュレーションの実行と変更の確認

先ほどと同様にハードウェアエミュレーションを実行します。
実行が終了したら、プロファイルサマリレポートを確認します。
[Application Timeline] レポートで、カーネル実行がオーバーラップしていることを確認します。

カーネルリンクプロセスを変更して、FPGA 上の同じカーネルインスタンスを同時に実行する方法を学びました。

オプションの手順

このチュートリアルでは、ハードウェアエミュレーションを使用してメカニズムを確認しました。[Active Build Configuration] を [System] に変更して [Run] ボタンをクリックしてコンパイルすると、実際の FPGA ボード上で実行することもできます。実行が終了したら、システム実行からのタイムライントレースレポートで確認できます。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2018.3 SDAccel™ 開発環境チュートリアル

複数の計算ユニットの使用

概要

背景

チュートリアル例の説明

内容

チュートリアル手順

ワークスペースの設定

デザインの設定

ハードウェアエミュレーションの実行

ホストコードの確認

エミュレーション結果

カーネルを同時にキューに追加するためのホストコードの変更

カーネルインスタンスの数の増加

ハードウェアエミュレーションの実行と変更の確認

オプションの手順

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

2018.3 SDAccel™ 開発環境チュートリアル

複数の計算ユニットの使用

概要

背景

チュートリアル例の説明

内容

チュートリアル手順

ワークスペースの設定

デザインの設定

ハードウェア エミュレーションの実行

ホスト コードの確認

エミュレーション結果

カーネルを同時にキューに追加するためのホスト コードの変更

カーネル インスタンスの数の増加

ハードウェア エミュレーションの実行と変更の確認

オプションの手順

ハードウェアエミュレーションの実行

ホストコードの確認

カーネルを同時にキューに追加するためのホストコードの変更

カーネルインスタンスの数の増加

ハードウェアエミュレーションの実行と変更の確認