Cerebras Systemsによる自然言語処理AIのトレーニング高速化（東京エレクトロンデバイス株式会社）のカタログ無料ダウンロード | Apérza Catalog（アペルザカタログ）

1/11ページ

このカタログをダウンロードして
すべてを見る

ダウンロード(1.5Mb)

製品カタログ

東京エレクトロンデバイス株式会社

会社案内ダウンロード

お問い合わせ

電話でお問い合わせ

自然言語処理に使用されている主な深層学習モデルにBERTがあります。BERTモデルの課題と、Cerebras Systemsによる解決策をご紹介します。

ドキュメント名	Cerebras Systemsによる自然言語処理AIのトレーニング高速化
ドキュメント種別	製品カタログ
ファイルサイズ	1.5Mb
取り扱い企業	東京エレクトロンデバイス株式会社 (この企業の取り扱いカタログ一覧)

安全で快適な無線LANの構築～工場無線化の3つのポイント～

ハンドブック

東京エレクトロンデバイス株式会社

AI活用の3重苦を解消し、飛躍的に進むための秘訣とは？

ホワイトペーパー

東京エレクトロンデバイス株式会社

AI開発者必見！ AIパイプラインに最適なプラットフォームとは？

ホワイトペーパー

東京エレクトロンデバイス株式会社

Page1

Cerebras Systemsを利用した BERT Largeモデルトレーニングの高速化 1

Page2

Cerebras SystemsによるBERT の効率的なスケーリング構造化されていないテキストは、人間が生成する最大のデータソースの1つです。ウェブデータ、学術論文、電子メール、従来のメディア、テキスト、インスタントメッセージ、デジタル記録、ソーシャルメディアなど、すべてのものに膨大な量の非構造化テキストが含まれています。増え続けるテキストは、整理し、合成し、パターンを識別し、適切に掘り起こして洞察することができれば、貴重なデータの宝庫となります。これを実現するのが、自然言語処理(NLP)です。NLPは、特殊なコンピュータを使って、増大するデータの意味を素早く理解することを可能にします。これにより、重要なアイデアやトピックの特定、新たなトレンドの発見、センチメントの分析、人間の読者には不可能な相関関係の特定などが可能になります。 NLPの力は広範囲に及び、営利企業や政府機関にも価値ある結果をもたらします。現在、NLPに使用されている主な深層学習モデルは、BERT(Bidirectional Encoder Representations from Transformers1 )です。その原型は、コンピュータが書かれたテキストを理解し、完全な文や段落の文脈の中で単語の意味を理解するのに役立ちました。 2 1 https://arxiv.org/abs/1810.04805 CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET

Page3

多くの企業がテキストをより良く分析するためにBERTモデルを使用していますが、このモデルは、自然言語の領域をはるかに超える応用例が増えています。BERTは、例えば、数値時系列、核酸配列、タンパク質配列など、あらゆるテキストまたは連続したデータのモデル化に使用することができます。当初の発表以来、人工知能(AI)のコミュニティは、領域固有の用途のために、様々なBERT派生モデルを構築して使用してきた。例えば以下のようなものです: BioBERT2 - バイオメディカルテキストマイニング FinBERT3 - 金融センチメント分析 SciBERT4 - 科学やコンピュータサイエンスのテキスト ClinicalBERT5 - クリニカルノートのモデリングと病院の再入院の予測 GilBERT6 - 石油・ガス分野における地質情報に基づく言語モデリング DNABERT7 - ゲノム配列解析 PatentBERT8 - 特許の分類と検索 mBERT; - 多言語理解のためのオリジナルBERTモデルの改良版ここでは、一般的な言語データで BERT を訓練するのではなく、ドメイン固有のテキストでモデルを訓練することで、はるかに高い精度を得ることができるという考えに基づいています。驚くことではありませんが、ドメインに特化したBERTモデルは、ドメインに特化したタスクにおいて、汎用コーパスで訓練されたモデルを大幅に上回ることがすぐにわかりました。凌駕するということは、固有の方言や語彙で学習したBERTモデルが、その分野での仕事の推論において圧倒的に高い精度を生み出すことを意味します。しかし、BERTモデルはまだ多くの課題を抱えています。Cerebras Systemsは、BERTのトレーニングと解決までの時間を改善しながら、これらの課題を克服するソリューションを設計しました。より良い解決策の必要性大規模なBERT型モデルを膨大なドメイン固有のデータセットでトレーニングすると、より高い精度の結果が得られるという圧倒的な証拠があるにもかかわらず、それを実行する組織はほとんどありません。なぜでしょうか？それは、難易度が高く、時間とコストがかかるからです。Cerebras Systemsはこれらの課題に注目し、BERTモデルをより利用しやすくするシステムを作りました。 BERTの計算上の課題 BERTのような複雑なモデルを従来のGPUで学習するには、マシンのクラスタを構築し、専門的なプログラミング技術を駆使し、各学習の実行に数日から数週間の時間をかける必要があります。 2 https://arxiv.org/abs/1901.08746 3 https://arxiv.org/abs/1908.10063 4 https://arxiv.org/abs/1903.10676 5 https://arxiv.org/abs/1904.05342 6 https://openreview.net/pdf?id=SJgazaq5Ir 7 https://www.biorxiv.org/content/10.1101/2020.09.17.301879v1.full 3 8 https://arxiv.org/abs/1906.02124

Page4

バイオメディカル言語表現のための事前学習済みBERTモデルに関する画期的な研究の1つである BioBERTiiでは、著者らは、大規模なNLPモデルがもたらす膨大な計算上の課題と、このことがこの分野の研究に与える影響について述べています: BERTLARGEを使用するために最善の努力をしたにもかかわらず、BERTLARGEの計算の複雑さのためにBERT BASEのみを使用しましたこれが、世界で最も洗練されたAI研究者たちからの発信であることは注目に値します。これは、マイクロソフト社とテキサス大学の研究者が、効率的なBERTモデルのトレーニング8 について今年発表した研究結果からも明らかなように、現在も課題となっています: BERTなどの大規模な事前学習済み言語モデルは、経験的に大きな成功を収めていますが、その計算効率の悪さが実用上の重大な欠点となっています。より大きな自己充足ブロックでより多くのTransformerレイヤを積み重ねると、モデルの複雑さは急速に増大します。... このようなモデルの複雑さは、高価な計算資源と非常に長い学習時間を必要としますグラフィックス・プロセッシング・ユニットのクラスターを使用した場合、セットアップ、プログラミング、最適化に長い時間がかかるため、ML担当者はMLの仕事をしない時間が多くなります。クラスタの設置や撤去、他の人が作業するのを待ったり、小さなマシンの煩雑な配列で動作するようにコードを慎重に調整したりしているのです。しかし、モデルの学習には数日から数週間かかることが多く、不満が残ります。このようにモデルの学習に時間がかかると、MLの研究はもはや反復的ではなく、ゆっくりとした一過性のものになってしまいます。グラフィックプロセッシングユニットのクラスターは、複雑で時間がかかり、コストも高いため、自然言語処理やその他のシーケンスデータ処理アプリケーションのためのドメイン固有のBERTモデルの恩恵を受けることができる多くの組織は、そのような余裕がありません。 Cerebras Systemsの解決策 Cerebrasは、BERTモデルを使用する際の課題を克服するためのソリューションを設計しました。新しいCerebras CS-2システムは、セットアップの複雑さと大規模モデルのトレーニングにかかる時間を劇的に削減します。これにより、組織にとって高性能な深層学習の計算がより身近なものになります。 4 9 https://arxiv.org/pdf/2101.00063.pdf CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET

Page5

最初のCerebras CS-1システムは2019年11月に発売され、史上最大のチップを搭載した世界で最もパワフルなAIコンピューティングのためのソリューションでした。 2021年4月、Cerebras Systemsは、第2世代のウェハースケールエンジン「WSE-2」をベースにした CS-2システムを発表し、CS-1の性能を2倍以上に高めました。CS-2は、85万個のAIに最適化されたプロセッサコア、40GBの高性能オンウエハーメモリ、20ペタバイトのメモリ帯域幅、220ペタビットのコア間通信帯域幅をもたらします。 NVIDIA A100 GPUと比較すると、WSE-2デバイスは56倍の大きさで、123倍のAIコンピュートコア、1,000倍のオンチップメモリ、12,733倍のメモリ帯域幅を備えており、これらすべてにより、AI作業をより速く、より高い効率で実行することができます。図1をご覧ください。 Cerebras WSE-2 NIVIDIA A100 Cerebrasの優位性チップサイズ 46,225 mm2 826 mm2 56x コア数 850,000 6912 + 432 123x オンチップメモリ 40 Gigabytes 40 Megabytes 1,000x メモリーバンド帯域幅 20 Petabytes/sec 155 Gigabytes/sec 12,733x ファブリック帯域幅 220 Petabytes/sec 600 Gigabytes/sec 45,833x 図1．深層学習用Cerebras WSE-2の仕様とNVIDIA A100グラフィック・プロセッシング・ユニットとの比較 CS-2システムは、このような性能特性を備えているため、GPUなどの従来の汎用プロセッサよりもはるかに高い性能と効率で、BERTモデルの深層学習計算を実行することができます。 CS-2は通常、AI作業の解決までの時間を桁違いに短縮し、ほんのわずかなスペースと電力で、GPUのクラスター全体(数十から数百)よりも優れたウォールクロック計算を実現します。 CS-2は、高速なウォールクロック計算に加えて、クラスター規模のコンピュートデバイスを1台のデスクトップマシンと同じようにより簡単にプログラムできるような容易性を提供しています。CS-2は、TensorFlowやPyTorchなどの標準的なMLフレームワークでシングルノードとしてプログラミング可能であり、ディープラーニング作業のためのセットアップや反復作業を迅速に行うことができます。この高性能とわかりやすいプログラミングの組み合わせにより、パフォーマンスを迅速にスケールアップし、ウォールクロックトレーニング時間と課題解決までの全体的な時間を大幅に短縮することができます。 5 CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET

Page6

Cerebras SystemsによるBERTトレーニングとソリューションまでの時間の短縮化解答時間の短縮は、機械学習の研究者やエンジニアが、より早くより効率的なコストで学習に到達できることを意味します。しかし、GPUクラスターは複雑で時間がかかり、大規模なソフトウェアの変更を必要とします。結局、これらのクラスターでは、パフォーマンスの低いトレーニング時間が続くことになります。Cerebrasのソリューションは、ML研究者がより簡単にプログラミングし、より早くトレーニングを行い、より早くソリューションに到達することを可能にします。トレーニング時間学習時間の短縮が深層学習の可能性を広げます。以下のセクションでは、BERTおよびBERTに類似したモデルを業界横断的にトレーニングしたお客様の知見を報告します。ウェブ系のお客様の最初の例では、Cerebras CS-1はNVIDIA DGX-A100(8 x A100 GPUを搭載)で実行される大規模なBERTスタイルのモデルに対してベンチマークされました。以下の結果が示すように、1台のCS-1はNVIDIA DGX-A100よりも9.5倍高速で、エンド・ツー・エンドの事前トレーニングが、DGX-A100では9日以上(218.5時間)かかっていたのが、1台の第一世代CS-1では1日以下(23.1時間、図2参照)に短縮されました。図 2. 顧客のBERTモデルで、同一TensorFlowモデルとデータによるウォールクロックでのCS-1とDGX A100の事前トレーニング時間比較。ウォールクロックでのトレーニング時間が短いほど良いこれは、ウォールクロックでのトレーニング時間では大きなアドバンテージとなりますが、コンピュートではさらに大きなアドバンテージとなります。例えば、1台のCS-1は、8台のA100 DGXシステムよりも 9.5倍高速であるため、NVIDIA A100 76枚分の演算性能があると言いえるかも知れませんが、これは正確ではなく、GPUはリニアには拡張しません。 2台目の8枚のGPUセットを追加しても、最初の8枚のGPUの2倍のウォールクロック・アクセラレーションは得られず、実際には、1.6倍程度にしかならないというデータもあります。スケーリングに伴うプログラミング上の課題や、コンピュートスケーリングの副次的な特性についてはよく知られており、後述で詳しく説明します。しかし結果的には、1台のCS-1が100枚以上のGPUを搭載したクラスターよりも優れ 6 た性能を発揮しています。また、CS-2はその2倍の速さです。 CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET

Page7

グラフィックス・プロセッシング・ユニットのクラスターの性能は、従来から知られているリニアにスケーリングしない事に加えて、小型プロセッサの大規模なクラスターを構築することは複雑で時間がかかり、ソフトウェア(機械学習モデルのプログラミングモデルを含む)を大幅に変更する必要があります。ミニバッチサイズの変更、ハイパーパラメータの変更、学習率の変更などが必要になります。また、グラフィックスプロセッシングユニットのクラスタでモデルを実行するためには、TensorFlowやPyTorchの異なるバージョンを使用する必要があります。しかし、Cerebras Systemsは単一の高性能マシンで設計されているため、クラスター規模の高速化を実現するのに、モデルの変更は必要ありません。大規模なハイパーパラメータのチューニングや、バッチサイズを大きくする必要もありません。単体のGPU用に書かれたBERTモデルは、数行のコードを入力するだけでCS-1またはCS-2で実行できます。使いやすさと非常に高速なパフォーマンスの組み合わせにより、Cerebrasのソリューションでドメイン固有のBERTのような大規模なNLPモデルを扱う研究者は、下流のタスクですぐに高い精度の結果を得ることができます。お客様にとっては、トレーニング時間が短縮されることで、新しいモデルアーキテクチャやデータセットを用いた深層学習の研究がより迅速かつコスト効率よく行えるようになります。また、本番モデルがお客様のユーザーデータの進化する統計情報とより一致するように、より頻繁に再トレーニングを行うことができます。がん研究をされているお客様からのコメントの通り、トレーニングを行う科学者が、トレーニング開始時の質問内容を覚えているほど、これらのモデルを高速にトレーニングできるようにしたいと考えていますアルゴンヌ国立研究所コンピューティング・環境・生命科学 (CELS)9担当副所長リック・スティーブンス10 前述したように、ウォールクロックでのトレーニング時間はGPUシステム上でリニアにスケールしないため、9.5倍のウォールクロックトレーニング時間は、CS-1のDGX-A100に対する計算上の優位性をさらに大きく表しています。言い換えれば、モデルを2倍、3倍速く学習させようとすれば、GPUシステムの数を2倍、3倍以上に増やす必要があります。 CS-1の2倍以上の性能を持つCS-2では、このようなモデルの学習時間がさらに速くなり、より大きなアドバンテージが期待できます。 7 10 https://www.technologyreview.com/2019/11/20/75132/ai-chip-cerebras-argonne-cancer-drug-development/

Page8

図3は、MLPerf Training v0.711 で報告された結果に基づいて、NVIDIA DGX-A100システムが達成した実際の BERT ウォールクロックトレーニング時間のスケーリングを示していますが、これを経験的に見ることができます。理想的な線形スケーリングはオレンジ色で示され、報告された実際のウォールクロックのスケーリングファクターは青色で示されています。図3. DGX-A100システムを使用した実際のウォールクロックBERTトレーニング時間のスケーリング(青)と、理想的な線形スケーリング(オレンジ)との比較。達成された数台のDGXシステムのスケーリングは大幅に副次的で、システムを追加するとほぼ冪乗則(べきじょうそく)の傾向に従いますこのデータを使用すると、この種のワークロードでは、CS-1は9.5倍の高速トレーニングを実現し、これはDGX-A100を約21～22台使用した場合のウォールクロック計算量に相当することがわかります。つまりこの場合、1台のCS-1で達成したトレーニング時間と同じ時間を得るためには、DGX-A100システムを21～22台購入する必要があり、これは約168～176枚のA100 GPUに相当します。お客様にとっては、トレーニング時間が短縮されることで、新しいモデルアーキテクチャやデータセットに対する深層学習の研究が、より迅速かつコスト効率よく行えるようになります。これにより、お客様のユーザーデータの統計的な変化に合わせて、より頻繁に再トレーニングを行うことができるようになります。このようなパフォーマンスの向上は、大手製薬会社のアストラゼネカ社など、他の業界でも確認されています。AIエンジニアリングの責任者であるニック・ブラウン氏12 は次のように述べています: Cerebrasは当社のAIへの取り組みを加速させる可能性をもたらし、最終的にはAIへの戦略的投資を行うべき場所を理解するのに役立ちます。これまでGPUの大規模なクラスタで実行するのに2週間以上かかっていたトレーニングが、わずか2日強、正確には52時間で達成されました。これにより、より頻繁に反復して、より正確な答えを、桁違いに早く得ることができるようになります 11 MLPerf v0.7 Training NLP benchmark BERT training on Wikipedia data. MLPerf name and logo are trademarks. See www.mlperf.org for more information. 12 https://larslynnehansen.medium.com/accelerating-drug-discovery-research-with-new-ai-models-a-look-at-the- 8 astrazeneca-cerebras-b72664d8783

Page9

プログラミングの容易性 Cerebrasソフトウェアスタックは、大規模なNLPモデルでより高いレベルのトレーニングパフォーマンスを簡単に実現します。必要な作業は、ここに示すように数行のコードを書くだけです。 CerebrasEstimatorは、私たちのチームが開発したTensorFlow用のラッパーです。ユーザーは、CerebrasEstimatorをインポートし、モデル（BERT-Largeなど）、入力関数、関連パラメータ、学習スクリプトを標準TensorFlowセマンティクスで定義するだけです。プロセス全体は以下のようになります: from cerebras.tf.cs_estimator import CerebrasEstimator from cerebras.tf.run_config import CSRunConfig est_config = CSRunConfig( cs_ip=params[“cs_ip”], cs_config=cs_config, ) est = CerebrasEstimator( model_fn=model_fn, model_dir=`./out` config=est_config, params=params, use_cs=True ) est.train(input_fn, max_steps=100000, use_cs=True) CerebrasEstimatorは、公式のTensorFlow Estimatorのサブクラス化されたもので、使い方は簡単で親しみやすいです。ユーザーは、標準的なEstimatorの仕様に加えて、CerebrasシステムのIPアドレスを提供し、フラグuse_cs=Trueを設定するだけで、Cerebrasデバイスでトレーニングと推論を行うことができます。 CS-2では、わずか数行のコードを変更するだけで、モデルのアーキテクチャ、ハイパーパラメータ、バッチサイズの違いを素早く試すことができます。複数の小型デバイスでネットワークを拡張したり、通信や同期の問題に対処するための追加作業は必要ありません。モデルのセットアップ、ハイパーパラメータの最適化、スケーリング、パフォーマンスの最適化といったエンド・ツー・エンドのモデル開発タスクは、従来のGPUクラスタのセットアップでは数ヶ月かかるところを、CS-1システムでは数日から数週間で行うことができます。プログラミングの容易性 + トレーニングの高速化 = 解決までの時間短縮ハードウェアの性能とソフトウェアの使いやすさを組み合わせることで，解決までの時間を大幅に短縮することができます。一般的なGPUクラスターのセットアップでは、許容できるデバイス使用率、性能、モデルの目標精度への収束を達成するために、ハイパーパラメータの選択、検証、および最適化に数日から数週間を費やすことがあります。 9

Page10

ライフサイエンス分野のお客様と共同で、最近、ある分野に特化したBERT NLPモデルの開発プロジェクトにおいて、モデルのコンセプトから製品化までの時間を、GPUクラスターと当社の(第一世代WSE 搭載)CS-1を用いて比較しました(図4) 同じモデルとデータセットを検討し、ソフトウェアのセットアップには、モデルの定義、機能のデバッグ、性能の最適化、初期モデルのトレーニングと生産可能な実装を開発するためのトレーニング実験といったステップが含まれています。この研究では、研究コンセプトから量産モデルまでのエンド・ツー・エンドのソリューションにかかる時間が、GPUクラスターでは18週間だったのに対し、CS-1では4週間に短縮されました。プログラミングと計算時間が3カ月以上短縮されたことで、お客様はエンジニアリングコストを削減し、新しいAIイノベーションを加速することができました。図 4. 研究のアイデアから量産モデルに至るまでの全体的な解決時間 (図のキーに示されているプログラミングおよび計算ステップを含む ) Cerebras CS-1 と顧客の GPU クラスタの比較結論 BERTおよびBERT類似モデルは、自然言語処理をはじめとする幅広い分野に影響を与えています。自然言語のクエリからタンパク質の配列分析まで、BERTおよびBERT類似モデルは、テキストやその他のシーケンシャルデータの分析に変革をもたらしています。 Cerebras CS-1およびCS-2システムは、これらのネットワークのパワーを幅広いユーザーに提供します。導入を簡素化して使いやすくし、トレーニング時間を大幅に短縮することで、Cerebras Systemsのソリューションは、産業界や政府機関のお客様にBERTおよびBERT類似モデルの適用範囲と影響を拡大します。詳細やデモをご覧になりたい方は、 cerebras.net/get-demo までご連絡ください。 10

Page11

Cerebras Systmesは、ウェハースケールエンジンを搭載したCS-2により、ディープラーニング用の計算機に革命を起こします。ウエハースケールエンジンは、人工知能研究のために、より多くの計算能力、より多くのメモリ、より多くの通信帯域を、これまで不可能だったスピードとスケールで提供します。先駆的なコンピューターアーキテクト、コンピューターサイエンティスト、ディープラーニングの研究者が一丸となって、人工知能を現在の技術水準よりも桁違いに加速させる新しいクラスのコンピューターシステムを構築しました。 11 CEREBRAS SYSTEMS, INC. | 1237 E ARQUES AVE, SUNNYVALE, CA 94085 USA | CEREBRAS.NET

動機*	具体的な検討のため情報収集のため
この内容をご存知でしたか？	詳しく知っていた名前だけは知っていた知らなかった
導入予定時期を教えて下さい	1ヵ月以内3ヵ月以内6ヵ月以内1年以内未定
あなたの立場を教えて下さい*	自社での導入を検討する立場顧客に提案・販売する立場
お問い合わせ・ご質問

動機
この内容をご存知でしたか？
導入予定時期を教えて下さい
あなたの立場を教えて下さい
お問い合わせ・ご質問

お名前
電話番号
会社名
事業所名
部署名
業態
職務区分
所在地

Cerebras Systemsによる自然言語処理AIのトレーニング高速化

このカタログについて

この企業の関連カタログ

このカタログの内容