SlideShare a Scribd company logo
1 of 12
シーサーでの InfiniBand 導入事例

Infiniband DAY [06]


                シーサー株式会社 石川直人
何につかってるか
● ストレージのファブリックにInfiniBand SRP
  ○ 仮想化環境 XenServer のストレージとして
  ○ 運用開始1年半くらい
● DBサーバーのサーバー間通信にIPoIB
  ○ 自社サービス Seesaaブログで利用
  ○ MySQL Master / Slaveの通信
  ○ 運用開始10ヶ月程度
XenServerでSRPを使う
● SRP (SCSI RDMA Protocol)
  ○ InfiniBand ULPの1つ
  ○ 比較的早いプロトコル
  ○ マルチパスの利用可
● XenServer ではSRPのサポート無し
● XenServer 5.5
  ○ OFED 1.4.2
● Scientific Linux 6.2 (ストレージ)
  ○ OFED 1.5.4
  ○ SCST 2.2.0 SRP target
10GbE 24port    10GbE 24port             共用&管理ネットワーク

XenServer 5.5 sp2


            HP DL380                                          HP DL380
       Xeon E5620x2                                       Xeon E5620x2
       144GB MEM                                          144GB MEM
       IB QDR 2port x1                                    IB QDR 2port x1
       10GbE 2port x2                                     10GbE 2port x2




                                                                   InfiniBand SRP SAN
                         IB QDR 36port    IB QDR 36port           マルチパスによる冗長化



SL6.2 DRBD SCST

           HP DL180                                           HP DL180

       Xeon E5645x2                                       Xeon E5645x2
       24GB MEM                          IPoIB            24GB MEM
       900GB 10KRPMx25                   DRBD             900GB 10KRPMx25
       1.2TB ioDrive                                      1.2TB ioDrive
       IB QDR 2port x1                                    IB QDR 2port x1
主なセットアップ項目
●XenServer へのOFEDインストール
   ○ XenServer 5.5 / OFED 1.4.2
   ○ DDK (Driver Development Kit)上でOFED をmake
●SRPターゲット
   ○ SL6.2 / OFED 1.5.4 / scst 2.2.0
●DRBD セットアップ
   ○ デュアルプライマリ
●DM-multipath の設定
   ○ XenServer 側は srp イニシエータ設定でマルチパス有
     効に(SRPHA_ENABLE=yes)
XenServer + SRP 稼働状況
● パフォーマンス
 ○ スループットはストレージの限界値近くでた
 ○ fio 4kランダムリード
    ■ ioDrive
     ●   SRP で半分劣化→VMで3割劣化
     ●   100kiops -> 50k -> 35k
   ■ HDD
     ●   5000程度のiops
     ●   SRP -> Dom0 -> VM まで顕著な劣化はなかった
● 稼働1年半でSRPに起因するトラブル無し
 ○ 稼働するVMは中規模サービスのDB/ファイルサーバー
   が複数個
 ○ 手動フェールオーバー等のオペレーションはしてない
XenServer + SRP その他
● XenServer 5.5 が安定していた
  ○ srpモジュール組み込み、 multipath の挙動
  ○ マイグレーション時のNW断
● iSCSI on IPoIB
  ○ スループットは出る
  ○ ランダムIOはSRPより劣る
● XenServer でiSER
  ○ ib_iser 組み込み失敗(5.5,5.6,6.0)
● XenServer 6.0 srp
  ○ scsi_transport_srpを有効にすれば利用可
  ○ multipath 時のフェールオーバーに時間がかかる
  ○ マイグレーション時に完全停止が発生してしまう
SeesaaブログでInfiniBandを使う
● サービス規模
 ○ 月間で2600万ユニークユーザ、16億PV
● データベースにMySQLを利用
 ○   5.1.x / utf8 / 全てMyISAM
 ○   テーブルのサイズ合計は1TB程度
 ○   マスター+スレーブ3台の計4台 
 ○   ストレージにioDrive
 ○   クラスタリング等はおこなっていない
● InfiniBand を用いて障害復旧時間の短縮
 ○ マスタ障害時はスレーブから復旧
 ○ リモートからのコピー時間=復旧時間
ブログMySQL構成
レプリケーションは一                    1Gbps Swtich
日一回短時間でおこ
なう
                                             冗長化


       db1             db2                db101            db102
      マスタDB        スレーブ/バックアップ          スレーブ/参照用         スレーブ/参照用


                                                     IPoIB
                                                     40Gbps
  HP DL360 G7                 Infiniband QDR switch  の帯域幅
  Xeon X5650x2
  8GBx6=48GB MEM                                    負荷の高いテーブルを ioDrive 領域に、
                                                    低いテーブルを HDD領域に配置
  SAS 2.5 146GB 15KRPMx2 raid1
  SAS 2.5 600GB 10KRPMx5 raid10 + ioDriveDuo 1.2TB
  Scientific Linux 6.2 / OFED 1.5.4
MySQL + IPoIB 稼働状況
● マスタ・スレーブ間の通信はIPoIB
 ○ 10ヶ月程度の運用でネットワークの障害は無い
● 障害時のオペレーション
 ○   レプリケーションの再構築が主な作業
 ○   再構築には生ファイルのコピーをおこなう
 ○   コピーには rsync ではなくnfsを利用している
 ○   nfs 上の cp -a で GB/sec のスループット
 ○   =1TBで15分程度
OFED IPoIB セットアップ
# OFEDの取得とインストール
wget http://www.openfabrics.org/downloads/OFED/ofed-1.5.4/OFED-1.5.4.tgz
tar zxvf OFED-1.5.4.tgz && cd OFED-1.5.4
vi ofed.conf # インストールパッケージの指定 ipoib=y
./install.pl -c ofed.conf # RPMが作成され、インストールがおこなわれる
vi /etc/infiniband/openib.conf # IPOIB_LOAD=yes

# /etc/init.d/openibd にて ibX でネットワークインターフェースが作成されます
cat /etc/sysconfig/network-scripts/ifcfg-ib0
DEVICE=ib0
TYPE=Infiniband
BOOTPROTO=static
IPADDR=10.11.1.11
PREFIX=24
NETWORK=10.11.1.0
BROADCAST=10.11.1.255
ONBOOT=yes
まとめ
● InfiniBand を用いることにより
  ○ 仮想化環境では高いスループットと低遅延なストレージ
    を構築、運用ができている
  ○ データベース環境では40Gbpsのスループットを生かし、
    障害復旧の時間を狭められるためシンプルな構成と運
    用が可能

More Related Content

What's hot

10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化Takuya ASADA
 
Ethernetの受信処理
Ethernetの受信処理Ethernetの受信処理
Ethernetの受信処理Takuya ASADA
 
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化Shigeru Tsubota
 
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08Nobuto Murata
 
Trema での Open vSwitch
Trema での Open vSwitchTrema での Open vSwitch
Trema での Open vSwitchkazuyas
 
FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話Masaru Oki
 
WireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernelWireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernelYuichiro Naito
 
Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)Amuro Nishizawa
 
軽量高機能webサーバーnginx
軽量高機能webサーバーnginx軽量高機能webサーバーnginx
軽量高機能webサーバーnginxngi group.
 
OSvの概要と実装
OSvの概要と実装OSvの概要と実装
OSvの概要と実装Takuya ASADA
 
Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像 Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像 Sho Shimizu
 
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)Takashi Takizawa
 
CouchDB JP & BigCouch
CouchDB JP & BigCouchCouchDB JP & BigCouch
CouchDB JP & BigCouchYohei Sasaki
 
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12Nobuto Murata
 
Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例Takuya ASADA
 
Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編Masaru Oki
 

What's hot (20)

10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化
 
Ethernetの受信処理
Ethernetの受信処理Ethernetの受信処理
Ethernetの受信処理
 
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
GNS3上の仮想アプライアンス+GitLabRunner+BDDによるテスト自動化
 
DPDKを拡張してみた話し
DPDKを拡張してみた話しDPDKを拡張してみた話し
DPDKを拡張してみた話し
 
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
Ubuntuとコンテナ技術 What is LXD? and Why? 2015-12-08
 
FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!FreeBSD 12.0 RELEASE!
FreeBSD 12.0 RELEASE!
 
Trema での Open vSwitch
Trema での Open vSwitchTrema での Open vSwitch
Trema での Open vSwitch
 
FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話FreeBSD jail+vnetと戯れた話
FreeBSD jail+vnetと戯れた話
 
FreeBSD Capsicum
FreeBSD CapsicumFreeBSD Capsicum
FreeBSD Capsicum
 
WireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernelWireGurad in the FreeBSD kernel
WireGurad in the FreeBSD kernel
 
Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)Raspberry PiでNode.js(ミニラックサーバ構築編)
Raspberry PiでNode.js(ミニラックサーバ構築編)
 
軽量高機能webサーバーnginx
軽量高機能webサーバーnginx軽量高機能webサーバーnginx
軽量高機能webサーバーnginx
 
OpenvswitchでVPS
OpenvswitchでVPSOpenvswitchでVPS
OpenvswitchでVPS
 
OSvの概要と実装
OSvの概要と実装OSvの概要と実装
OSvの概要と実装
 
Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像 Open vSwitchソースコードの全体像
Open vSwitchソースコードの全体像
 
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
Unbound/NSD最新情報(OSC 2014 Tokyo/Spring)
 
CouchDB JP & BigCouch
CouchDB JP & BigCouchCouchDB JP & BigCouch
CouchDB JP & BigCouch
 
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
“bcache”を使ってSSDの速さと HDDの大容量のいいとこどり 2015-12-12
 
Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例Rps・rfs等最新linux kernel事例
Rps・rfs等最新linux kernel事例
 
Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編Lagopus as open flow hybrid switch 実践編
Lagopus as open flow hybrid switch 実践編
 

Viewers also liked

低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワークNaoto MATSUMOTO
 
いまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコトいまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコトNaoto MATSUMOTO
 
HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)Toshihiro Suzuki
 
RDMA for Windows Server 2012
RDMA for Windows Server 2012RDMA for Windows Server 2012
RDMA for Windows Server 2012Naoto MATSUMOTO
 
ベンチマーク勉強会#03
ベンチマーク勉強会#03ベンチマーク勉強会#03
ベンチマーク勉強会#03milk hanakara
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラムMinoru Nakamura
 
x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設Minoru Nakamura
 
How to make good Xeon Phi
How to make good Xeon PhiHow to make good Xeon Phi
How to make good Xeon PhiNaoto MATSUMOTO
 
災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有Naoto MATSUMOTO
 
USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例Naoto MATSUMOTO
 
研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?Naoto MATSUMOTO
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例についてMasanori Itoh
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelMinoru Nakamura
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronizationMinoru Nakamura
 
JVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweepJVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweepMinoru Nakamura
 

Viewers also liked (20)

低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
低遅延Ethernetとファブリックによるデータセンタ・ネットワーク
 
いまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコトいまパブリッククラウドで起きているコト
いまパブリッククラウドで起きているコト
 
HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)HBaseでグラフ構造を扱う(開発中)
HBaseでグラフ構造を扱う(開発中)
 
RDMA for Windows Server 2012
RDMA for Windows Server 2012RDMA for Windows Server 2012
RDMA for Windows Server 2012
 
ベンチマーク勉強会#03
ベンチマーク勉強会#03ベンチマーク勉強会#03
ベンチマーク勉強会#03
 
0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム0円でできる自宅InfiniBandプログラム
0円でできる自宅InfiniBandプログラム
 
SC16 NVIDIA NEWS
SC16 NVIDIA NEWSSC16 NVIDIA NEWS
SC16 NVIDIA NEWS
 
Jvm reading-parallel gc
Jvm reading-parallel gcJvm reading-parallel gc
Jvm reading-parallel gc
 
Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025Dentoo.LT12 並列処理・MPIの第一歩 20151025
Dentoo.LT12 並列処理・MPIの第一歩 20151025
 
x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設x86-64/Linuxに独自メモリ空間を勝手増設
x86-64/Linuxに独自メモリ空間を勝手増設
 
How to make good Xeon Phi
How to make good Xeon PhiHow to make good Xeon Phi
How to make good Xeon Phi
 
災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有災害コミュニケーションと視覚情報の共有
災害コミュニケーションと視覚情報の共有
 
USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例USiZEにおけるVyatta活用事例
USiZEにおけるVyatta活用事例
 
研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?研究所コンテンツは海外へどう拡散しているか?
研究所コンテンツは海外へどう拡散しているか?
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例について
 
Persistent-Memory-Programming-Model
Persistent-Memory-Programming-ModelPersistent-Memory-Programming-Model
Persistent-Memory-Programming-Model
 
JVM-Reading-ParalleGC
JVM-Reading-ParalleGCJVM-Reading-ParalleGC
JVM-Reading-ParalleGC
 
Jvm reading-synchronization
Jvm reading-synchronizationJvm reading-synchronization
Jvm reading-synchronization
 
MPIによる並列計算
MPIによる並列計算MPIによる並列計算
MPIによる並列計算
 
JVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweepJVM-Reading-ConcurrentMarkSweep
JVM-Reading-ConcurrentMarkSweep
 

Similar to シーサーでのInfiniBand導入事例

Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Sunao Tomita
 
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)Masahiro Tsuji
 
Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)milk hanakara
 
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslopeosoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslopeNoriyasu Sakaue
 
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)Satoshi Shimazaki
 
Crooz meet fusion io3 open
Crooz meet fusion io3 openCrooz meet fusion io3 open
Crooz meet fusion io3 opentakaoka susumu
 
TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇Manabu Ori
 
hbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフターhbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフターsemind
 
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)株式会社サードウェア
 
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜Taro Matsuzawa
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?Kohei KaiGai
 
OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾外道 父
 
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料一路 川染
 
UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編hdais
 

Similar to シーサーでのInfiniBand導入事例 (20)

Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?Windows Azure の中でも動いている InfiniBand って何?
Windows Azure の中でも動いている InfiniBand って何?
 
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
[dbts-2014-tokyo] 目指せExadata!! Oracle DB高速化を目指した構成
 
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
Sheepdogを使ってみて分かったこと(第六回ストレージ研究会発表資料)
 
Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)Router board勉強会vol2(配布用)
Router board勉強会vol2(配布用)
 
osoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslopeosoljp201105_ZFSjiman_nslope
osoljp201105_ZFSjiman_nslope
 
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
OSC 2011 Tokyo/Fall 自宅SAN友の会 (Infinibandお試し編)
 
Crooz meet fusion io3 open
Crooz meet fusion io3 openCrooz meet fusion io3 open
Crooz meet fusion io3 open
 
TripleOの光と闇
TripleOの光と闇TripleOの光と闇
TripleOの光と闇
 
retrobsd-2012-JUL-07 at JNUG BSD BoF
retrobsd-2012-JUL-07 at JNUG BSD BoFretrobsd-2012-JUL-07 at JNUG BSD BoF
retrobsd-2012-JUL-07 at JNUG BSD BoF
 
WalBの紹介
WalBの紹介WalBの紹介
WalBの紹介
 
hbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフターhbstudy25 劇的ビフォーアフター
hbstudy25 劇的ビフォーアフター
 
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
KVM Cluster with DRBD, ioDrive2 and Infiniband (130802 OSC京都)
 
ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜ゆるふわLinux-HA 〜PostgreSQL編〜
ゆるふわLinux-HA 〜PostgreSQL編〜
 
Kernel vm-2014-05-25
Kernel vm-2014-05-25Kernel vm-2014-05-25
Kernel vm-2014-05-25
 
An Intelligent Storage?
An Intelligent Storage?An Intelligent Storage?
An Intelligent Storage?
 
OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾OpenStackでつくる開発環境と外道塾
OpenStackでつくる開発環境と外道塾
 
Osc 20130223
Osc 20130223Osc 20130223
Osc 20130223
 
FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料FPGA+SoC+Linux実践勉強会資料
FPGA+SoC+Linux実践勉強会資料
 
UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編UnboundとNSDの紹介 BIND9との比較編
UnboundとNSDの紹介 BIND9との比較編
 
ヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージヤフーを支えるフラッシュストレージ
ヤフーを支えるフラッシュストレージ
 

More from Naoto MATSUMOTO

Alder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature MonitoringAlder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature MonitoringNaoto MATSUMOTO
 
CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化Naoto MATSUMOTO
 
2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)Naoto MATSUMOTO
 
防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察Naoto MATSUMOTO
 
旅するパケットの見える化
旅するパケットの見える化旅するパケットの見える化
旅するパケットの見える化Naoto MATSUMOTO
 
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91Naoto MATSUMOTO
 
災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化Naoto MATSUMOTO
 
BeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep diveBeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep diveNaoto MATSUMOTO
 
Network Adapter Deep dive
Network Adapter Deep diveNetwork Adapter Deep dive
Network Adapter Deep diveNaoto MATSUMOTO
 
x86_64 Hardware Deep dive
x86_64 Hardware Deep divex86_64 Hardware Deep dive
x86_64 Hardware Deep diveNaoto MATSUMOTO
 
ADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheetADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheetNaoto MATSUMOTO
 
3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet3/4G USB modem Cheat Sheet
3/4G USB modem Cheat SheetNaoto MATSUMOTO
 
How To Train Your ARM(SBC)
How To  Train Your ARM(SBC)How To  Train Your ARM(SBC)
How To Train Your ARM(SBC)Naoto MATSUMOTO
 
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~Naoto MATSUMOTO
 
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)Naoto MATSUMOTO
 
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化Naoto MATSUMOTO
 

More from Naoto MATSUMOTO (20)

Alder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature MonitoringAlder Lake-S CPU Temperature Monitoring
Alder Lake-S CPU Temperature Monitoring
 
CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化CPU製品出荷状況と消費電力の見える化
CPU製品出荷状況と消費電力の見える化
 
5Gの見える化
5Gの見える化5Gの見える化
5Gの見える化
 
2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)2023年以降のサーバークラスタリング設計(メモ)
2023年以降のサーバークラスタリング設計(メモ)
 
防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察防災を考慮した水中調査の一考察
防災を考慮した水中調査の一考察
 
旅するパケットの見える化
旅するパケットの見える化旅するパケットの見える化
旅するパケットの見える化
 
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91LTE-M/NB IoTを試してみる nRF9160/Thingy:91
LTE-M/NB IoTを試してみる nRF9160/Thingy:91
 
災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化災害時における無線モニタリングによる社会インフラの見える化
災害時における無線モニタリングによる社会インフラの見える化
 
BeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep diveBeautifulSoup / selenium Deep dive
BeautifulSoup / selenium Deep dive
 
AMDGPU ROCm Deep dive
AMDGPU ROCm Deep diveAMDGPU ROCm Deep dive
AMDGPU ROCm Deep dive
 
Network Adapter Deep dive
Network Adapter Deep diveNetwork Adapter Deep dive
Network Adapter Deep dive
 
RTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep diveRTL2838 DVB-T Deep dive
RTL2838 DVB-T Deep dive
 
x86_64 Hardware Deep dive
x86_64 Hardware Deep divex86_64 Hardware Deep dive
x86_64 Hardware Deep dive
 
ADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheetADS-B, AIS, APRS cheatsheet
ADS-B, AIS, APRS cheatsheet
 
curl --http3 cheatsheet
curl --http3 cheatsheetcurl --http3 cheatsheet
curl --http3 cheatsheet
 
3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet3/4G USB modem Cheat Sheet
3/4G USB modem Cheat Sheet
 
How To Train Your ARM(SBC)
How To  Train Your ARM(SBC)How To  Train Your ARM(SBC)
How To Train Your ARM(SBC)
 
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
全国におけるCOVID-19対策の見える化 ~宿泊業の場合~
 
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
我が国の電波の使用状況/携帯電話向け割当 (2019年3月1日現在)
 
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
私たちに訪れる(かもしれない)未来と計算機によるモノコトの見える化
 

Recently uploaded

「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-LoopへTetsuya Nihonmatsu
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見Shumpei Kishi
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~arts yokohama
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法ssuser370dd7
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor arts yokohama
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)ssuser539845
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfMatsushita Laboratory
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdfAyachika Kitazaki
 

Recently uploaded (11)

「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
「今からでも間に合う」GPTsによる 活用LT会 - 人とAIが協調するHumani-in-the-Loopへ
 
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
持続可能なDrupal Meetupのコツ - Drupal Meetup Tokyoの知見
 
What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?What is the world where you can make your own semiconductors?
What is the world where you can make your own semiconductors?
 
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
2024 02 Nihon-Tanken ~Towards a More Inclusive Japan~
 
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
情報処理学会86回全国大会_Generic OAMをDeep Learning技術によって実現するための課題と解決方法
 
2024 04 minnanoito
2024 04 minnanoito2024 04 minnanoito
2024 04 minnanoito
 
2024 01 Virtual_Counselor
2024 01 Virtual_Counselor 2024 01 Virtual_Counselor
2024 01 Virtual_Counselor
 
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
IFIP IP3での資格制度を対象とする国際認定(IPSJ86全国大会シンポジウム)
 
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdfTaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
TaketoFujikawa_台本中の動作表現に基づくアニメーション原画システムの提案_SIGEC71.pdf
 
20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf20240326_IoTLT_vol109_kitazaki_v1___.pdf
20240326_IoTLT_vol109_kitazaki_v1___.pdf
 
2024 03 CTEA
2024 03 CTEA2024 03 CTEA
2024 03 CTEA
 

シーサーでのInfiniBand導入事例

  • 1. シーサーでの InfiniBand 導入事例 Infiniband DAY [06] シーサー株式会社 石川直人
  • 2. 何につかってるか ● ストレージのファブリックにInfiniBand SRP ○ 仮想化環境 XenServer のストレージとして ○ 運用開始1年半くらい ● DBサーバーのサーバー間通信にIPoIB ○ 自社サービス Seesaaブログで利用 ○ MySQL Master / Slaveの通信 ○ 運用開始10ヶ月程度
  • 3. XenServerでSRPを使う ● SRP (SCSI RDMA Protocol) ○ InfiniBand ULPの1つ ○ 比較的早いプロトコル ○ マルチパスの利用可 ● XenServer ではSRPのサポート無し ● XenServer 5.5 ○ OFED 1.4.2 ● Scientific Linux 6.2 (ストレージ) ○ OFED 1.5.4 ○ SCST 2.2.0 SRP target
  • 4. 10GbE 24port 10GbE 24port 共用&管理ネットワーク XenServer 5.5 sp2 HP DL380 HP DL380 Xeon E5620x2 Xeon E5620x2 144GB MEM 144GB MEM IB QDR 2port x1 IB QDR 2port x1 10GbE 2port x2 10GbE 2port x2 InfiniBand SRP SAN IB QDR 36port IB QDR 36port マルチパスによる冗長化 SL6.2 DRBD SCST HP DL180 HP DL180 Xeon E5645x2 Xeon E5645x2 24GB MEM IPoIB 24GB MEM 900GB 10KRPMx25 DRBD 900GB 10KRPMx25 1.2TB ioDrive 1.2TB ioDrive IB QDR 2port x1 IB QDR 2port x1
  • 5. 主なセットアップ項目 ●XenServer へのOFEDインストール ○ XenServer 5.5 / OFED 1.4.2 ○ DDK (Driver Development Kit)上でOFED をmake ●SRPターゲット ○ SL6.2 / OFED 1.5.4 / scst 2.2.0 ●DRBD セットアップ ○ デュアルプライマリ ●DM-multipath の設定 ○ XenServer 側は srp イニシエータ設定でマルチパス有 効に(SRPHA_ENABLE=yes)
  • 6. XenServer + SRP 稼働状況 ● パフォーマンス ○ スループットはストレージの限界値近くでた ○ fio 4kランダムリード ■ ioDrive ● SRP で半分劣化→VMで3割劣化 ● 100kiops -> 50k -> 35k ■ HDD ● 5000程度のiops ● SRP -> Dom0 -> VM まで顕著な劣化はなかった ● 稼働1年半でSRPに起因するトラブル無し ○ 稼働するVMは中規模サービスのDB/ファイルサーバー が複数個 ○ 手動フェールオーバー等のオペレーションはしてない
  • 7. XenServer + SRP その他 ● XenServer 5.5 が安定していた ○ srpモジュール組み込み、 multipath の挙動 ○ マイグレーション時のNW断 ● iSCSI on IPoIB ○ スループットは出る ○ ランダムIOはSRPより劣る ● XenServer でiSER ○ ib_iser 組み込み失敗(5.5,5.6,6.0) ● XenServer 6.0 srp ○ scsi_transport_srpを有効にすれば利用可 ○ multipath 時のフェールオーバーに時間がかかる ○ マイグレーション時に完全停止が発生してしまう
  • 8. SeesaaブログでInfiniBandを使う ● サービス規模 ○ 月間で2600万ユニークユーザ、16億PV ● データベースにMySQLを利用 ○ 5.1.x / utf8 / 全てMyISAM ○ テーブルのサイズ合計は1TB程度 ○ マスター+スレーブ3台の計4台  ○ ストレージにioDrive ○ クラスタリング等はおこなっていない ● InfiniBand を用いて障害復旧時間の短縮 ○ マスタ障害時はスレーブから復旧 ○ リモートからのコピー時間=復旧時間
  • 9. ブログMySQL構成 レプリケーションは一 1Gbps Swtich 日一回短時間でおこ なう 冗長化 db1 db2 db101 db102 マスタDB スレーブ/バックアップ スレーブ/参照用 スレーブ/参照用 IPoIB 40Gbps HP DL360 G7 Infiniband QDR switch の帯域幅 Xeon X5650x2 8GBx6=48GB MEM 負荷の高いテーブルを ioDrive 領域に、 低いテーブルを HDD領域に配置 SAS 2.5 146GB 15KRPMx2 raid1 SAS 2.5 600GB 10KRPMx5 raid10 + ioDriveDuo 1.2TB Scientific Linux 6.2 / OFED 1.5.4
  • 10. MySQL + IPoIB 稼働状況 ● マスタ・スレーブ間の通信はIPoIB ○ 10ヶ月程度の運用でネットワークの障害は無い ● 障害時のオペレーション ○ レプリケーションの再構築が主な作業 ○ 再構築には生ファイルのコピーをおこなう ○ コピーには rsync ではなくnfsを利用している ○ nfs 上の cp -a で GB/sec のスループット ○ =1TBで15分程度
  • 11. OFED IPoIB セットアップ # OFEDの取得とインストール wget http://www.openfabrics.org/downloads/OFED/ofed-1.5.4/OFED-1.5.4.tgz tar zxvf OFED-1.5.4.tgz && cd OFED-1.5.4 vi ofed.conf # インストールパッケージの指定 ipoib=y ./install.pl -c ofed.conf # RPMが作成され、インストールがおこなわれる vi /etc/infiniband/openib.conf # IPOIB_LOAD=yes # /etc/init.d/openibd にて ibX でネットワークインターフェースが作成されます cat /etc/sysconfig/network-scripts/ifcfg-ib0 DEVICE=ib0 TYPE=Infiniband BOOTPROTO=static IPADDR=10.11.1.11 PREFIX=24 NETWORK=10.11.1.0 BROADCAST=10.11.1.255 ONBOOT=yes
  • 12. まとめ ● InfiniBand を用いることにより ○ 仮想化環境では高いスループットと低遅延なストレージ を構築、運用ができている ○ データベース環境では40Gbpsのスループットを生かし、 障害復旧の時間を狭められるためシンプルな構成と運 用が可能