## Memo ![[Pasted image 20241011095010.png]] ![[Pasted image 20241011095053.png]] ## Memo with LLM ## Abstract 小型言語モデル([[SLM]])は、最新のスマートデバイスで広く採用されているにもかかわらず、データセンターやクラウド環境で主に導入されている大型言語モデル([[LLM]])に比べ、学術的な注目度は著しく低い。 LLMが人工的な一般知能を追求するためにその能力を向上させ続けている一方で、SLMの研究は、機械知能を日常的なタスクでより利用しやすく、手頃な価格で、効率的にすることを目指している。 本稿では、100M~5Bのパラメータを持つ、トランスフォーマーベースのデコーダのみの言語モデルに焦点を当て、59の最先端のオープンソースSLMを調査し、アーキテクチャ、学習データセット、学習アルゴリズムの3つの軸で、その技術革新を分析する。 さらに、コモンセンス推論、文脈内学習、数学、コーディングなど、様々な領域における能力を評価する。 さらに、デバイス上での実行コストに関する洞察を得るために、推論レイテンシとメモリフットプリントをベンチマークする。 ベンチマークデータの詳細な分析を通じて、この分野の研究を促進するための貴重な洞察を提供します。