FAQ

よくある質問

1. QC全般について

HoldとFail判定の違いを教えてください。

Hold判定は弊社基準値を下回っておりますが、そのまま進めても問題なく進行できる可能性が高い状態を示しております。Fail判定は可能であれば再送をお勧めしております。ただし、どちらも弊社基準値を下回っているため、その後の結果保証はいたしかねます。

QCに使用する液量を教えてください。

通常、2-3 uL使用します。再泳動などを行う場合はもう少し多く使用する場合がございますため、予めご了承ください。

もっとたくさん液量を送ったはずなのですが。

QCレポートに記載のFinal VolumeはQC後の液量です。QCには通常、2-3 uL使用します。
また、チップロスなどを考慮し、さらに2-3 uL引いた量を記載しております。サンプル送付時の液量が少ない場合、冷凍状態で発送いただいても弊社到着時に蒸発により枯渇している場合がございますので、余裕をもった液量のご送付をお願いいたします。

サンプルを希釈している理由を教えてください。

液量が不足すると思われる場合、もしくは濃度が高い場合は適宜希釈を行っております。

サンプルを再送したいのですが、費用は発生しますか。

同一サンプルに対し、2回までのQCは無償で行っております。
再再送(3回目のQC)をご希望されます場合はサンプルQC費用が追加となります。ただし、途中でキャンセルされた場合は、実施した回数分のQC費用がご請求となります。

再送の期限はありますか。

基本的にはQC結果をご報告した日から3か月以内での再送をお願いしております。

再送したいのですが、初回サンプルも捨てないでください。

納品後3か月までは、使用しなかったサンプルも保管いたします。

再送サンプルのQC結果次第では初回サンプルを使用して進めてください。

再送サンプルのQC結果がHold, Fail判定でした場合、進行方法について確認のご連絡を差し上げますので、その際に担当者へ初回サンプルでの進行のご指示をお願いします。

再送の方法を教えてください。

オーダーシートの【B】Sampleinformation シートで発送種類を「再送サンプル」としていただき、その右側の空白セルに受託番号をご記入いただいた上で印刷、サンプルへ同梱をお願いいたします。
その他の手順は初回サンプルをお送りいただいた際と同様です。※受託番号とは、QCレポート内の「Order Number」のことです。

一度サンプルを返送いただいてから再調整、サンプル再送を行いたいです。

可能ですが、サンプル返送費用が追加となります。1回の返送に対して費用が発生しますので、解析終了後に再度サンプルの返送をご希望いただく場合は返送費用は2回分必要です。

Failサンプルだけでなく、Passサンプルも再送したいです。

可能ですが、場合によってはPassサンプルは次のステップへ進行している可能性がございます。なるべくお早めにご相談ください。

QC結果が悪かったサンプルの代わりに、同じサンプルではなく別のサンプルを送付したいです。

差し替えサンプルをご送付いただくことは可能です。一つのサンプルに対し2回までのQCを無償で対応といたしますため、同じサンプル数の再送であれば追加費用は発生いたしません。

1サンプルに対し同時に2サンプルを送付・QC結果を確認後、
シーケンスを行うサンプルを選択したいです。

基本的にはシーケンスに進めるサンプル数と同じ数のサンプルのみをご送付ください。
もしシーケンスするサンプル数以上のサンプルを同時にQCを行う場合は、追加QC費用を頂戴いたします。

初回サンプルと再送サンプルを混合して進めたいです。

再送サンプルに対して単独でQCを行い、QC結果をご報告の際にご指示をいただけましたら初回サンプルと混合してライブラリ調整に進めることが可能です。※ライブラリの混合はいたしかねます。

事前に測定した濃度との違いが大きいです。

弊社でのサンプルQCにおける濃度測定は、蛍光法による定量を行っておりますので、Nano Dropで事前測定いただいた場合は、濃度に乖離が生じる可能性がございます。お客様の測定方法、条件とは異なる場合がございますため、弊社でのQC結果を基準としてご案内しております。予めご了承ください。

事前にQCをせずにサンプルを送ってもいいですか。

弊社でサンプルQCを実施いたしますので、弊社でのサンプルQC結果をもとにその後の進行について
ご検討いただくことが可能でございますが、途中でキャンセルなさいます場合はそれまでの費用をご請求いたします。

微量サンプルのため、サンプルQCは省略し、
全量を使用してライブラリ作製をお願いしたいです。

ご希望いただいた場合はQCを省略することは可能ですが、この場合の結果保証はいたしかねます。

ライブラリ調製時のinput DNA / RNA量を教えてください。

基本的にはサンプルQC基準値の量がinput量です。基準値以下のサンプルは全量使用します。分解が進んでいるサンプルは通常よりinput量を増やして進行することでライブラリ調整が成功する可能性もございますが、結果保証はいたしかねます。各キットごとの基準値については以下のページもしくはオーダーシートにてご確認ください。https://www.macrogen-japan.co.jp/next_seq_0702.php

DNA / RNA 量が基準値未満ですが、このまま進めたいです。

ライブラリ濃度が低くなり、取得データ量が予定より少なくなる可能性がございます。
量が弊社の基準値未満の場合でも、分解が進んでおらず、メーカーが提示しております、最小input量以上であれば進行可能な可能性もございます。ただし、弊社の基準値は満たしていないため結果の保証はいたしかねます。また、ライブラリ調整後のQC結果においてライブラリ濃度がかなり低く、シーケンス進行が難しい場合でも、ライブラリ調整費用まではご請求させていただくことになりますので、リスクを承知いただいた上で進行のご指示をお願いします。

一部のサンプルのみ進行し、その結果を確認してから残りのサンプルの進行を決めたいです。

可能ですので担当者へお申し付けください。
ただし、先行結果納品後、なるべくお早めに残りのサンプルの進行方法についてご指示をお願いします。
またHDD納品の場合は、先行納品に使用したHDDを弊社まで返送いただく必要がございます。

お勧めの抽出キットはありますか。

生物種によって最適な抽出手法が異なるため、基本的には弊社推奨はございません。動物細胞などではカラム精製を実施するキット、植物細胞などではCTAB法などを実施することが一般的かと存じます。

2.RNA QC について

RIN (RNA Integrity Number) とはなんでしょうか。

RNAの分解の進行度合いを1.0~10.0の数値で表したものです。泳動結果をrRNAやrRNAの分解物が出現する領域などの9つの領域に細分化し、それぞれの状態を数値化します。それらの数値に領域毎の重み付けを行った後、分解度を10点満点で表示します。弊社の基準は7.0以上で、数値が低いほど分解が進んでいます。

rRNA ratio (%) とはなんでしょうか。

28Sと18Sピーク、または23Sと16Sピークの比率です。
RIN値と併せて分解の程度を評価する指標として使用しており、弊社の基準値は1.0以上です。分解が生じると28S (または23S) ピークの割合が小さくなり、18S (または16S) ピークの割合が大きくなります。また生物種によっては28Sピークが確認できず、18Sのみのシングルピークとなります。
RIN値が問題なければ通常通り進行可能と思われますが、結果の保証はいたしかねます。

RINとrRNA ratioが0.1となっています。事前測定ではもっと高かったのですが。

濃度が低く、測定不能のため0.1としております。実際の数値は申し訳ございませんがわかりかねます。

DV200 (%) とはなんでしょうか。

200 bp以上のRNAの割合のことで、DV200の値が小さいと断片化が進んでいると考えられます。
弊社の基準は50%以上です。

5s peak(small peak)とはなんでしょうか。

低分子域にみられるピークを指しております。tRNA由来のピークであることも多いようですが、明確な由来は分かりかねます。

DNA混入の疑いと判定された理由はなんでしょうか。
またこのまま進めた場合のリスクを教えてください。

28Sまたは23Sピークより高分子域にピークが確認された場合、DNA混入の疑いと判定しております。
このまま進めた場合、結果にDNA由来のリードが含まれる可能性がございます。弊社で有償にてDNase処理を行うことは可能ですが、作業結果の保証はいたしかねます。また、Small RNA-Sequenceのご依頼の際はDNase処理には対応しておりません。mRNAをoligo dTでCaptureするライブラリ調整方法などの場合、理論的にはDNase処理を行わなくてもコンタミによる影響は最小限になると考えられますが、実際どの程度影響があるかはわかりかねます。
また、DNA混入がある場合、正確にRNA濃度が測定できていない可能性がございますので、実際のRNA量はレポート記載量より少ないかもしれません。

分解が進んでいますが、このまま進めた場合のリスクを教えてください。

十分なライブラリ濃度が得られなかったり、シーケンスへ進行しても、取得データ量が少なくなったりする可能性がございます。またmRNAをoligo dTでCaptureするライブラリ調整方法の場合、全長がシーケンスされずリードが3’側に偏る、3’ biasと呼ばれる現象が生じる可能性もございます。
一般的に問題ないとされるRNAの状態がRIN値7.0であり、分解が進むほど、3’ biasの傾向が強まります。3’ biasのデータ解析への影響としましては、例えば発現比較解析時ですと、実際には同じような発現量を持っていたとしても、biasによるread損失のため、Expression estimation, DEG analysis に不備が生じ、結果の信頼性が下がる可能性がございます。random priming によるライブラリ調整方法の場合、rRNAが除去しきれず、rRNA由来のreadの割合が高くなる可能性がございます。

分解が進んでいますが、キットを変更して進めることはできますか。

random priming によるライブラリ調整方法の場合、mRNAをoligo dTでCaptureするライブラリ調整方法に比べて、分解傾向のあるサンプルでも対応できる可能性がございます。しかし、分解が進んでしまっている場合はrRNAが除去しきれず、rRNA由来のreadの割合が高くなる可能性がございます。
Humanサンプルであれば、TruSeqRNA Exome kit も使用可能です。こちらはコーディングRNAを配列特異的にキャプチャーするキットのため、ある程度であれば分解の進んだサンプルでも解析が可能となります。

※プローブがデザインされていないRNAはシーケンスされません。※過去案件とのデータ比較などを行う場合は、仕様(ライブラリ調整kit)を統一することをお勧めします。

分解が進んでいる理由として何が考えられますか。

RNAの分解が進んでいる理由に関して主に以下の原因が考えられます。
・サンプリング状況でRNAの分解が進行してしまった。
→サンプル採取後すぐに液体窒素で凍結させて、融解する前にフェノールや抽出Bufferを加えるなどで対策いただけるかと思われます。
・サンプリング状況でRNAの分解が進行してしまった。

その他にも様々な原因の可能性がございます。
RNAは基本的に分解し易い核酸であるため、ご留意ください。

凍結させる組織の大きさはRNAの質に影響しますか。

組織が大きすぎて、内部まで完全に凍結するのに時間がかかってしまう場合などは、RNaseが不活化する前に組織内のRNAが分解してしまうこともございます。凍結前の組織片が大きい場合などは、多少切断していただいてから凍結していただくことで、分解が防げる場合もございます。

3.DNA / PCR産物QC について

DNA精製をしていただけますか。

有償ですが可能です。
ただし微量サンプルの場合は、抽出過程でサンプルをロスする可能性がございますので、量が十分に無いサンプルに対してはお勧めしておりません。

DIN (DNA Integrity Number) とはなんでしょうか。

gDNAの分解の進行度合いを1.0~10.0の数値で表したものです。数値が低いほど分解が進んでいます。

DIN値が低かったですが、再抽出時、気を付ける点があれば教えてください。

サンプル採集から抽出までを素早く行っていただくことが重要かと思われます。
凍結融解を繰り返すと分解が進む可能性がございますので、その点もご注意ください。なお、FFPE由来のサンプルや、メタゲノムサンプルの場合はDIN値が低い特異性がございますので改善は難しいです。
DIN値の改善が難しい場合はPCR増幅を行うライブラリ作製キットでの進行をご相談ください。

PCR増幅がされないのはなぜでしょうか。

Bufferの塩濃度や残留有機物等でPCR増幅がされづらいこともございます。
実際にどの要素がPCRを阻害しているかは判断が難しいです。またPCRを行うには十分な濃度があり、サンプルQCでPass判定となった場合でもPCR増幅がうまくされないことがございます。
この場合でもPCR費用はご請求となりますので何卒ご了承ください。

4. Library QC について

Library QCの内容を教えてください。

qPCRでの濃度測定、およびTapeStationまたはBioanalyzerを用いたサイズ確認を行っております。

事前に測定したサイズとQC結果のサイズに乖離があります。

泳動に使用する機器やチップの種類により、誤差が生じる場合がございます。

Multi peak (broad peak, high molecular Peak)とのことですが、
このまま進めても問題ないですか。

Multi peakはライブラリ調整キットに依存するものなど、特に問題無い場合もございますが、目的のピークかどうか弊社で判断しきれない部分もございますので、必ず一度お客様にピークをご確認いただき、進行のご指示をいただいた後でシーケンスへ進みます。
もし目的外のピークが確認された場合、そのピーク由来のリードが結果に含まれる可能性がございます。

small peak (adapter dimer) とはどのピークのことですか。
また結果にどのような影響がありますか。

Lower marker とメインピークの間の低分子域に確認された小さいピークのことです。
一般的に低分子域の方がシーケンスされやすい傾向があるためHold判定になります。
メインピークがはっきりしている場合は大きな影響はないと思われますが、結果の保証はいたしかねます。

濃度が基準値未満ですが、シーケンスは可能ですか。

2.5 nM以上であれば問題なくデータが取得できる場合が多いです。
2.5 nM未満の濃度でもシーケンスは可能ですが、取得データ量が少なくなる、またはほとんど得られない可能性がございます。※ライブラリお預かりの場合は取得データ量の保証はいたしかねます。

濃度が低いので追加で送るサンプルと混合して進めていただけますか。

申し訳ございませんが、ライブラリの濃縮は承っていないため混合しても濃度を改善することはできません。お手数ですがお客様の元で再調整を行っていただき、サンプルの再送をお願いいたします。
※一度返送をご希望されます場合は返送費用が追加となります。(Q1-10参照)

濃縮してシーケンスへ進めていただけますか。

申し訳ございませんが、ライブラリの濃縮は承っておりません。

精製を行っていただけますか。

申し訳ございませんが、ライブラリの精製は承っておりません。

Poolingはどのように行いますか。

特にご指定が無い場合、Library QCでの測定値をもとに、等モル比で混合いたします。

ライブラリQC結果の報告が送られてきません。

ライブラリQC結果のご報告は、ライブラリをご送付いただいた場合など、一部の案件でのみご報告をしております。gDNA / RNAなどをご送付いただき、サンプルQCを行った案件のライブラリQC結果についてはライブラリ濃度が低いなどの問題が発生した場合のみにお送りし、進め方についてご相談しております。
問題が無かった場合は基本的にはお送りしておりません。

5. BioChipQC について

濃縮は可能ですか。

可能ですが、液量が十分に無い場合は対応いたしかねますので、
追加でサンプルをお送りいただく場合もございます。

RNA混入疑いとのことですが、RNase処理をお願いできますか。

RNase処理後の作業結果は保証いたしかねますが、有償にて対応可能です。
RNase処理を行うと、その過程でDNA損失が生じますため、可能であれば、サンプルの再送をお勧めしております。また再送が難しく、若干のRNAコンタミであれば、結果の保証はいたしかねますが、RNase処理は行わず、そのまま解析進行することをお勧めいたします。

純度が低いですが、精製をお願いできますか。

有償にて対応可能ですが、精製を行うと、その過程でRNAサンプルの損失が生じますので、可能であれば、サンプルの再送をお勧めしております。

6. Cancer Panel QC について

純度が低いですが、精製をお願いできますか。

有償にて対応可能ですが、精製を行うと、その過程でRNAサンプルの損失が生じますので、可能であれば、サンプルの再送をお勧めしております。

再度サンプルを調整したのですが(FFPEからのゲノム抽出)、
純度が2.0以上と高く出てしまいます。何か対応策はありますか。

FFPE由来サンプルの場合、DNAが分解していることが予測されるため、純度が重要な指標の一つとなります。A260/280が1.8以下の場合は、タンパクやフェノールなどが残留していると考えられ、2.0以上の場合はその他の不純物が混入しているといわれています。
しかし、弊社では「その他の不純物」を特定することが難しいため、有効な精製方法などのご案内が難しい状況です。RNA除去、エタノール沈殿などで多少の改善がみられることもございますが、複数回実施しても改善されない場合もあるようです。

1.納品結果md5sum値について

md5sum値とはなんですか。

md5(Message Digest 5)はハッシュ関数の一つでファイルやデータを数学的に圧縮した場合にハッシュ値を生成します。結果データをダウンロードもしくはコピーしたあとに、正しくダウンロード、コピーされたかを確認するため、「md5sum値」のご確認をお願いしております。

md5sum値が一致しません。

正しくデータがダウンロードまたはコピーできていない可能性がございます。再度データのダウンロードまたはコピーをお願いいたします。弊社のデータダウンロード時にGoogle Chrome以外のブラウザと相性があまり良くない傾向がございます。Google Chrome以外のブラウザをご利用の場合は一度既定のブラウザをGoogle Chromeに変更しダウンロードをお試しください。

md5sum値の確認方法について教えて下さい。

弊社指定ではございませんが、「QuickHash-Windows」という、フリーのアプリケーションがございます。もしお手持ちのソフトウェアが無ければこちらをご取得下さい。
https://www.quickhash-gui.org/downloads/
アプリケーションを起動後、Fileタブをご選択いただき、AlgorithmはMD5をご選択ください。
「Select File」をクリックし、md5sumの値の確認を行うファイルをご選択ください。表示された数字と、PDFレポートのダウンロードリンクの右側に記載されたmd5sum値の数字が一致することが確認できましたら作業完了です。Expected Hash Valueの欄に記載されたmd5sum値を入力いただくと、数字が一致しているかご確認いただけます。

2. 納品結果fastqfileについて

fastqfileとはなんですか。

「fastqfile」は、シーケンサーから出力されたbclファイルから生成されたデータ解析に用いる前の生データを指し、そのままですと中身を見ることはできません。一般的には、データ解析専用のソフトウェアにインプットするファイルでございます。データ解析まで弊社にご依頼されましたお客様はデータ解析結果のみではなく必ずfastqfileについてもお忘れなくご取得をお願いいたします。(データが消えますと追加解析を承れません。)

fastqfileを使用するソフトウェアについて教えて下さい。

ソフトウェアは、ご研究の目的、解析のアプリケーションによって、有償、無償、様々なものがございます。また、シーケンスデータは容量が大きいため、解析にはLinux等、専用のPC環境を用いられる場合が多いです。

fastq.gz fileの解凍方法について教えて下さい。

fastqfileは7Zipファイルの展開ソフトで展開できますので、下記URLよりソフトのダウンロードと展開をお試しください。https://7-zip.opensource.jp/

fastqfileをダウンロードしましたがサイズが小さいです。

ダウンロードが正しくできていない可能性がございます。
弊社のデータダウンロード時にGoogle Chrome以外のブラウザと相性があまり良くない傾向がございます。Google Chrome以外のブラウザをご利用の場合は一度Google Chromeでのダウンロードをお願いいたします。ダウンロードしたファイルはmd5sum値の確認もお願いいたします。また、大学・施設のサーバー環境によっては一定のデータ量でダウンロードが止まってしまうことがあるようです。
もし可能でしたら別の環境でもお試しいただけますと幸いです。

fastq.gz fileをダウンロードしていますが終わりません。

fastqfileはデータ量が多いためダウンロードにお時間がかかります。また、時間帯によってアクセスが集中する場合がございますため、少し時間を置く、もしくは夜間のダウンロードをお試しいただけますと幸いです。お客様の環境によってはダウンロードデータ量で制限される場合がございますため、ネットワーク環境のご確認をお願いいたします。

fastqfileのダウンロードができません。(Not Foundと表示される)

弊社ではサーバー負荷軽減のため、納品後約2週間で納品レポートのダウンロードリンクをクローズしております。データ保管期限内である納品後3ヶ月以内であれば再開通の手配をいたしますのでお手数ですが、【ngs@macrogen-japan.co.jp】までご連絡ください。

ダウンロード期限を過ぎてしまったがダウンロードしたいです。

納品後3ヶ月が経過しますと弊社サーバーからデータを完全に削除いたします。
恐れ入りますが、3ヶ月を過ぎてデータの再取得が必要な場合はサンプルをご送付いただき再実験をする必要があります(追加費用が発生いたします)。

アダプター配列について教えて下さい。

キット毎に異なりますため【ngs@macrogen-japan.co.jp】までお問い合わせください。

3. 納品結果HDD納品について

パスワードの案内メールがきていないです。

HDD発送時にHDD受取先のお客様(代理店様)にパスワードのご案内メールをご送付しております。
弊社もしくは代理店様よりパスワードのご案内メールをお送りできていない場合は恐れ入りますが、【ngs@macrogen-japan.co.jp】までご連絡ください。

パスワードを入力したがエラーになります。

パスワードをコピーした際にスペースなどが含まれていますと解除できません。
20文字を入力していただいているかご確認いただき、解除ができない場合はお手数ですが、【ngs@macrogen-japan.co.jp】までご連絡ください。

パスワードを入力したが解除が完了しません。

パスワードを入力してから解除まで10分ほどお時間がかかる場合がございます。
恐れ入りますが、解除が完了するまでお待ちいただけますと幸いです。

4. 納品結果解析物について

どのファイルをダウンロードすればいいですか。

解析結果のZipファイルだけでなく、「Data Download Information」のRaw dataファイル(fastq.gzファイル)も全てダウンロードをお願いいたします。後日追加解析を依頼される際(納品後3ヶ月以上経過している場合)に、これらのファイルを提供していただく必要があります。
また、公共DBに結果を登録する際もfastqファイルが必要になります。

解析結果を見たがファイルが見れません。

解析結果ファイルはZipファイルのため、展開してからのご確認をお願いしております。

解析結果内のhtmlレポートの画像が表示されません。

ダウンロードが正しくできていない可能性がございます。
弊社のデータダウンロード時にGoogle Chrome以外のブラウザと相性があまり良くない傾向がございます。Google Chrome以外のブラウザをご利用の場合は一度Google Chromeでのダウンロードをお試しください。また、解析結果ファイルはZipファイルのため、ファイルを展開してからのご確認をお願いしております。展開後、フォルダ内の構成を編集しないでご確認ください。

Raw dataが2個ずつあるのはなぜですか。

Paired endでの解析を行っている場合は、1サンプルにつき2つのファイル(read1, read2)を納品しております。

vcfファイルの確認方法について教えて下さい。

Excelプログラムを開いていただき、vcfファイルをそのままExcelにドラッグアンドドロップしましたらデータをご確認いただけます。

PDFレポートが複数あるがダウンロードするファイルは片方のみで大丈夫ですか。

比較パターンによりレポートが複数に分かれていることがございます。どちらかのレポートからRaw Dataの「Fastq.gz」を、各レポートからAnalysis Resultsの「_RNAseq.zip」及び「_RNAseq_excel.zip」についてダウンロードをお願いいたします。

  • ヒトWGS解析
  • ヒトWES解析
  • RNA-Seq解析
  • ASV解析
納品レポートの見方
-ヒトWGS解析-

※本”納品レポートの見方”中のデータは一般的な納品例となっております。
お手元のレポートと一致しない場合もございますので、ご了承ください。

ORDER INFORMATION

こちらの項目では、本案件で使用しましたライブラリ調製キット、シーケンサー機種をご案内しています。
シーケンサー機種名につきまして、下記例では”illumina platform”との記載になっていますが、
データ量保証のプランでWGS解析をご依頼の場合、NovaSeq 6000 および NovaSeq X plus シーケンサーを使用しての対応となります。

illumiina NovaSeq6000 Sequencing System
             https://jp.illumina.com/systems/sequencing-platforms/novaseq.html

 illumiina NovaSeq X plus Sequencing System
             https://jp.illumina.com/systems/sequencing-platforms/novaseq-x-plus.html

DELIVERABLES

Raw dataおよび解析結果のダウンロードリンクが記載されています。
Raw data(fastqファイル)は論文投稿時に行うデータベース登録時に、また、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルです。

ダウンロードできる期間は約2週間となっておりますので、必ず期間中に全てのファイルをダウンロードして下さい。また、ダウンロードしたfastq.gzファイルはファイルに破損がないかの確認のため、必ず”md5sum値”の照合を行ってください。ご確認をお願いしております。
確認、照合方法につきましては”CAUTION”をご確認ください。HDD納品対応の場合には、HDD内容について詳細記載があります。

ANALYSIS RESULT

①FastqStatistics

例1
こちらの項目では得られたリードデータのリード数、GC%、Qualityの確認結果を記載しています。例1 Q20/Q30 scores of Raw data・Phredというプログラムで算出したQuality Score(QS) = Phredクオリティスコアベースコールにおけるエラー率の予測指標。Q20: PhredQSが20以上の塩基の割合Q30: PhredQSが30以上の塩基の割合※QSの詳細はResult File Descriptionにも記載があります。

例2 Quality by Cycle
FASTQCというプログラムで算出したQSを基に、Forward(read1)およびReverse(read2)について、リードの位置ごとのQSを図示しています。・縦軸:QS、横軸:リード上での位置、緑色領域:Good Quality、黄色領域:Acceptable Quality、赤色領域:Bad Quality を示しており、得られたリードを平均して評価した際に、どのQualityにあたるのか確認できます。

②Alignment Statistics

例1 Alignment Statistics
こちらの項目では得られたリードデータをリファレンス情報にマッピングし、マッピングの状況から算出致しました、depth、リード数、カバー率、インサートサイズなどのデータを記載しています。

例2 Alignment Coverage
Alignment解析により算出した領域ごとのdepthおよび累積深度分布を図示しています。累積深度とは、ある深さ以上の対象領域が占める割合のことであり、Depth:40手前より割合が低下していますので、例1mean depth:38.88と一致した形状となっています。“Show Description”をクリックできる場合、その部分をクリックすると、数値および名称につきまして詳細と凡例を確認できます。

例3 Fragment Size Statistics

例4 Fragment Size Histogram
Mapping解析によりリードがマッピングされた領域を”Fragment”と定義し、Fragmentsizeおよび累積サイズ頻度の分布を図示しています。累積サイズ頻度とは、ある長さ以上の対象領域が占める割合であり、Insert size:350前後より割合が大きく低下しており、例3Fragment length 平均値(455)からStandard deviation(112)を引いた値(343)と一致した形状となっています。“Show Description”をクリックできる場合、その部分をクリックすると、数値および名称につきまして詳細と凡例を確認できます。

②Alignment Statistics

こちらの項目では得られたリードデータをリファレンス情報にマッピングし、マッピングの状況から算出致しました、一塩基多型(SNP)、InDelなどのデータを記載しています。

例1 Variant Statistics

例2 Variant Statistics Diagram
Mapping解析により検出したSNP、InDel、構造多型(SV)、コピー数多型(CNV)の、総数および内訳分類を円グラフで表示しています。

例3 Circos
                ヒトサンプルの場合は、Circos plotを作成しています。染色体ごとのSNP、InDel、SV、CNVの局在と関連を確認できます。“Show Description”をクリックできる場合、その部分をクリックすると、数値および名称につきまして詳細と凡例を確認できます。

DESCRIPTION

①Experimental / ②Analysis Workflow

こちらの項目では、ライブラリ作製からシーケンス解析までを”Experimental”、得られたリードデータを基に実施したデータ解析を”Analysis”と分類し、各々のワークフローを簡単に記載しています。

例1 Experimental Overview

こちらの項目では、ライブラリ作製からシーケンス解析までを”Experimental”、得られたリードデータを基に実施したデータ解析を”Analysis”と分類し、各々のワークフローを簡単に記載しています。

例2 Whole genome resequencing analysis process

③Analysis Tools / ④AnaysisDatabase

こちらの項目では、データ解析に使用しておりますプログラムおよびデータベースの、バージョン、パラメータなど詳細内容を記載しています。論文記載、Method作成の際にご参照ください。③Analysis Tools ④AnaysisDatabase本解析における用語の定義については後述の、“AnaysisDatabase”項目にて英文で詳細をまとめています。
例1  Effect (Sequence Ontology)

”Column Description”として、SNP/InDel解析結果
Excel file (XXXX(Sample名)_chrX(染色体番号).xlsx)の各カラムについての詳細を記載しています。

  • CHROM:染色体番号・POS:位置
  • REF:リファレンス上の塩基情報
  • ALT:サンプルで変異が確認された塩基情報
  • REF_DP:リファレンス情報の塩基のアレル深度
  • ALT_DP:サンプルで確認された変異塩基のアレル深度
  • QUAL:REF/ALT多型が存在する確率をPhredでスケーリングした値。Phredスケール:-10*log(1-p)となります。こちらのスコアが10の場合:10分の1の確率でエラーがあることを示し、100の場合:10^10分の1の確率であることを示します。
  • MQ:Mapping Quality
  • Zygosity:Homo/Hetero
  • FILTER:下記条件でフィルター設定し、条件分けしています
    (例2)。該当の位置ですべてのフィルターを通過した場合はPASS記載となります。フィルタに合格していない場合、失敗したフィルタのコードがセミコロンで区切られた形式で記載となります。
  • Effect:Sequence Ontologyの用語を用いたアノテーション結果。複数の結果の場合、‘&’で連結して表記しています。
  • Putative_Impact:推定される影響度/削除度。”HIGH, MODERATE, LOW, MODIFIER”として簡易推定結果を記載しています。
  • Gene_Name:一般的な遺伝子名(HUGO Gene Nomenclature Committee:HGNC基準)。遺伝子間に位置する変異の場合、最も近い遺伝子を記載しています。
  • Feature_Type:転写物、モチーフ、miRNAなど特定領域の特徴を記載しています。
  • Feature_ID:Transcript ID、Motif ID、miRNA、ChipSeqピーク、Histone markなど、ID登録されている場合、そのIDを記載しています。
  • Transcript_BioType:ENSEMBL biotypes、Coding、Noncodingについて記載しています。
  • Rank/Total:エクソンまたはイントロンのランク/エクソンまたはイントロンの総数。
  • HGVS.c:HGVS表記による変異(DNAレベル)
  • HGVS.p:HGVS表記による変異(アミノ酸レベル)

上記以外の項目につきましては、”Column Description”をご確認ください。

例3  SNP/InDel解析結果Excel file

⑤Result File Description

こちらの項目では、納品しておりますFileの種類・形式につきまして詳細を記載しています。

            また、ヒトサンプルを解析した際に納品している、CNV解析結果Excel file (XXXX(Sample名)_CNVs.xlsx) SV解析結果vcf file (XXXX(Sample名)_SV.vcf)の各カラムについての詳細もこちらに記載しています。上記file を確認される際には、こちらの記載をご参照ください。

CAUTION
納品物につきまして

ダウンロード納品のご依頼の際は弊社html形式のレポートサイトの、
DELIVERABLESの頁にRaw dataおよび解析結果のダウンロードリンクがあります。
Raw dataはデータベース登録時や、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルとなります。
ダウンロードできる期間は約2週間となっておりますので、必ず全てのファイルをダウンロード頂きますよう、宜しくお願い致します。
なお、2週間経過後も3ヵ月はデータを保管しておりますので、再度ダウンロードが必要な場合は
ngs@macrogen-japan.co.jpまでご連絡ください。

md5sum値の確認

ダウンロードしたFastq.gzファイルもしくはHDD内のFastq.gzファイルは、ファイルの解凍前に”md5sum値”のご確認くだい。
”QuickHash-GUI”という、フリーのアプリケーションもございます。https://www.quickhash-gui.org/downloads/
もしお手持ちのソフトウェアが無ければこちらをご取得下さい。

QuickHash-GUIでのmd5sum値の確認方法は下記となります。
“QuickHash-GUI.exe”アプリケーションを起動します(例1)。
①“FileS”タブをクリックし、
②“Algorithm”、”MD5”を選択してください。md5sum値を確認したいfastqファイルが入っているフォルダを
③“Select Directory” から選択していただきますと、自動的に解析が進行致します。

出力は、csvファイルまたはtxtファイルとして保存することができます。
使用するシステムの性能により、処理に時間がかかる場合がございます。表示された数字と、レポートに記載のmd5sum値の一致を確認できましたら作業完了となります。あわせてQuickHash-GUIのユーザーマニュアルもご確認ください(例2)。

例1 QuickHash-GUI起動画面

例2 QuickHash-GUIfile中身

納品レポートの見方
-ヒトWES解析-

※本”納品レポートの見方”中のデータは一般的な納品例となっております。
お手元のレポートと一致しない場合もございますので、ご了承ください。

ORDER INFORMATION

            こちらの項目では、本案件で使用しましたライブラリ調製キット、シーケンサー機種をご案内しています。シーケンサー機種名につきまして、下記例では”illumine platform”との記載になっていますが、データ量保証のプランでWES解析をご依頼の場合、NovaSeq6000 および NovaSeq X plus シーケンサーを使用しての対応となります。

illumiina NovaSeq6000 Sequencing System
             https://jp.illumina.com/systems/sequencing-platforms/novaseq.html

 illumiina NovaSeq X plus Sequencing System
             https://jp.illumina.com/systems/sequencing-platforms/novaseq-x-plus.html

DELIVERABLES

Raw dataおよび解析結果のダウンロードリンクが記載されています。
Raw data(fastqファイル)は論文投稿時に行うデータベース登録時に、また、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルです。

ダウンロードできる期間は約2週間となっておりますので、必ず期間中に全てのファイルをダウンロードして下さい。また、ダウンロードしたfastq.gzファイルはファイルに破損がないかの確認のため、必ず”md5sum値”の照合を行ってください。ご確認をお願いしております。
            確認、照合方法につきましては“CAUTION”をご確認ください。HDD納品対応の場合には、HDD内容について詳細記載があります。

ANALYSIS RESULT

①FastqStatistics

例1
こちらの項目では得られたリードデータのリード数、GC%、Qualityの確認結果を記載しています。例1 Q20/Q30 scores of Raw data・Phredというプログラムで算出したQuality Score(QS) = Phredクオリティスコアベースコールにおけるエラー率の予測指標。Q20: PhredQSが20以上の塩基の割合Q30: PhredQSが30以上の塩基の割合※QSの詳細はResult File Descriptionにも記載があります。

例2 Quality by Cycle
FASTQCというプログラムで算出したQSを基に、Forward(read1)およびReverse(read2)について、リードの位置ごとのQSを図示しています。・縦軸:QS、横軸:リード上での位置、緑色領域:Good Quality、黄色領域:Acceptable Quality、赤色領域:Bad Quality を示しており、得られたリードを平均して評価した際に、どのQualityにあたるのか確認できます。

②Alignment Statistics

例1 Alignment Statistics
こちらの項目では得られたリードデータをリファレンス情報にマッピングし、マッピングの状況から算出致しました、depth 、 リード数、カバー率、リード長、一定数(1x, 10x, 20x, 30x, 以上のカバー率の領域の割合などのデータを記載しています。

例2 Alignment Coverage
Alignment解析により算出した領域ごとの depthおよび累積深度分布を図示しています。累積深度とは、ある深さ以上の対象領域が占める割合のことであり、Depth:80手前より 80% 以下と、割合が大きく低下していますので、例1 mean depth 77.9 と一致した形状となっています。“Show Description” をクリックできる場合、その部分をクリックすると、数値および名称につきまして詳細と凡例を確認できます。

例3 Insert StatisticsMapping
解析によりリードがマッピングされた領域を ” と定義し、Fragmentsize の分布を図示しております。Fragment平均長: 197 と算出され、波形データのピークの位置と一致しています。

③Variant Statistics

こちらの項目では得られたリードデータをリファレンス情報にマッピングし、マッピングの状況から算出致しました、マッピングの状況から算出致しました。一塩基多型(SNP) 、 InDel 、ヘテロ/ホモの割合などのデータを記載しています。
例1 Variant Statistics

例2 Variant Statistics Diagram Mapping解析により検出した SNP 、 InDel につきまして、総数および内訳分類を円グラフで表示しています。“Show Description” をクリックできる場合、その部分をクリックすると、数値および名称につきまして詳細と凡例を確認できます。

DESCRIPTION

①Experimental / ②Analysis Workflow

こちらの項目では、ライブラリ作製からシーケンス解析までを”Experimental”、得られたリードデータを基に実施したデータ解析を”Analysis”と分類し、各々のワークフローを簡単に記載しています。

例1 Experimental Overview

こちらの項目では、ライブラリ作製からシーケンス解析までを”Experimental”、得られたリードデータを基に実施したデータ解析を”Analysis”と分類し、各々のワークフローを簡単に記載しています。

例2 Whole genome resequencing analysis process

③Analysis Tools / ④AnaysisDatabase

こちらの項目では、データ解析に使用しておりますプログラムおよびデータベースの、バージョン、パラメータなど詳細内容を記載しています。論文記載、Method作成の際にご参照ください。③Analysis Tools ④AnaysisDatabase本解析における用語の定義については後述の、“AnaysisDatabase”項目にて英文で詳細をまとめています。
例1  Effect (Sequence Ontology)

”Column Description”として、SNP/InDel解析結果
Excel file (XXXX(Sample名)_chrX(染色体番号).xlsx)の各カラムについての詳細を記載しています。

  • CHROM:染色体番号
  • POS:位置
  • REF:リファレンス上の塩基情報
  • ALT:サンプルで変異が確認された塩基情報
  • DP:変異があったアレル全体のリード数
  • AD:変異があったリード数
    ※Allele Frequency(AF)の数値は ”AD/DP* で求めることができます。
  • QUAL:REF/ALT多型が存在する確率をPhredでスケーリングした値。Phredスケール:-10*log(1-p)となります。こちらのスコアが10の場合:10分の1の確率でエラーがあることを示し、100の場合:10^10分の1の確率であることを示します。
  • MQ:Mapping Quality
  • Zygosity:Homo/Hetero
  • FILTER:下記条件でフィルター設定し、条件分けしています
    (例2)。該当の位置ですべてのフィルターを通過した場合はPASS記載となります。フィルタに合格していない場合、失敗したフィルタのコードがセミコロンで区切られた形式で記載となります。

例2 フィルター設定の詳細

  • Effect:Sequence Ontologyの用語を用いたアノテーション結果。複数の結果の場合、‘&’で連結して表記しています。
  • Putative_Impact:推定される影響度/削除度。”HIGH, MODERATE, LOW, MODIFIER”として簡易推定結果を記載しています。
  • Gene_Name:一般的な遺伝子名(HUGO Gene Nomenclature Committee:HGNC基準)。遺伝子間に位置する変異の場合、最も近い遺伝子を記載しています。
  • Feature_Type:転写物、モチーフ、miRNAなど特定領域の特徴を記載しています。
  • Feature_ID:Transcript ID、Motif ID、miRNA、ChipSeqピーク、Histone markなど、ID登録されている場合、そのIDを記載しています。
  • Transcript_BioType:ENSEMBL biotypes、Coding、Noncodingについて記載しています。
  • Rank/Total:エクソンまたはイントロンのランク/エクソンまたはイントロンの総数。
  • HGVS.c:HGVS表記による変異(DNAレベル)
  • HGVS.p:HGVS表記による変異(アミノ酸レベル)

上記以外の項目につきましては、”Column Description”をご確認ください。

例3  SNP/InDel解析結果Excel file

⑤Result File Description

こちらの項目では、納品しておりますFileの種類・形式につきまして詳細を記載しています。

例1 Deliverables List

CAUTION
納品物につきまして

弊社html形式のレポートサイトの、DELIVERABLESの頁にRaw dataおよび解析結果のダウンロードリンクがあります。
Raw dataはデータベース登録時や、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルとなります。
ダウンロードできる期間は約2週間となっておりますので、必ず全てのファイルをダウンロード頂きますよう、宜しくお願い致します。なお、2週間経過後も3ヵ月はデータを保管しておりますので、再度ダウンロードが必要な場合はngs@macrogen-japan.co.jpまでご連絡ください。

md5sum値の確認

ダウンロードしたFastq.gzファイルもしくはHDD内のFastq.gzファイルは、ファイルの解凍前に”md5sum値”のご確認くだい。
”QuickHash-GUI”という、フリーのアプリケーションもございます。https://www.quickhash-gui.org/downloads/
もしお手持ちのソフトウェアが無ければこちらをご取得下さい。

QuickHash-GUIでのmd5sum値の確認方法は下記となります。
“QuickHash-GUI.exe”アプリケーションを起動します(例1)。
①“FileS”タブをクリックし、
②“Algorithm”、”MD5”を選択してください。md5sum値を確認したいfastqファイルが入っているフォルダを
③“Select Directory” から選択していただきますと、自動的に解析が進行致します。

出力は、csvファイルまたはtxtファイルとして保存することができます。
使用するシステムの性能により、処理に時間がかかる場合がございます。表示された数字と、レポートに記載のmd5sum値の一致を確認できましたら作業完了となります。あわせてQuickHash-GUIのユーザーマニュアルもご確認ください(例2)。

例1 QuickHash-GUI起動画面

例2 QuickHash-GUIfile中身

納品レポートの見方
-RNA-Seq解析-

※本”納品レポートの見方”中のデータは一般的な納品例となっております。
お手元のレポートと一致しない場合もございますので、ご了承ください。

Experimental / Analysis Methods and Workflow

こちらの項目では、ライブラリ作製からシーケンス解析までを”Experimental” 、得られたリードデータを基に実施したデータ解析を”Analysis”と分類し、各々のワークフローを簡単に記載しています。

例1 RNA Sequencing Experiment Workflow

例2 Analysis Workflow

Summary of Data Production

こちらの項目では得られたリードデータのリード数、GC%、Qualityの確認結果を記載しています。

例1 Raw data stats
・Phredというプログラムで算出したQuality Score(QS)
= Phredクオリティスコアベースコールにおけるエラー率の予測指標
Q20: Phred QSが20以上の塩基の割合
Q30: Phred QSが30以上の塩基の割合
※QSの詳細は9. Appendixにも記載があります。

例2 Read quality at each cycle of sample
FASTQCで算出したQSを基に、Forward(read1)およびReverse(read2)について、リードの位置ごとのQSを図示しています。
・縦軸:QS、横軸:リード上での位置
緑色領域:Good Quality、黄色領域:Acceptable Quality、
赤色領域:Bad Quality を示しており、得られたリードを平均して評価した際に、どのQualityにあたるのか確認できます。

例2 Read quality at each cycle of sample
FASTQCで算出したQSを基に、Forward(read1)およびReverse(read2)について、リードの位置ごとのQSを図示しています。
・縦軸:QS、横軸:リード上での位置
緑色領域:Good Quality、黄色領域:Acceptable Quality、
赤色領域:Bad Quality を示しており、得られたリードを平均して評価した際に、どのQualityにあたるのか確認できます。

Reference Mapping and Assembly Results

こちらの項目では得られたリードデータをリファレンス情報にマッピングし、マッピングの状況から算出した、既知転写産物および遺伝子の発現量のリストおよび新規転写産物として予測した転写産物の発現量算出結果リストを確認できます。

例1 Known transcripts Expression Level
リードカウント、Transcript Length および発現量など、得られた情報をまとめた一覧をExcel 形式でまとめています。こちらのリストは
Result_RNASeq_Excel フォルダ内の
Expression_profileに以下名称にて保管されています。
・Expression_Profile.GRCh38.transcript.xlsx
・Expression_Profile.GRCh38.genes.xlsx

例2 新規転写産物の分類
図示されておりますSplicingパターンの取り方を基に、
計13パターンに分けて評価分類しています。

例3 Novel Transcript list
例2での分類結果、リードカウント、Exon数および発現量など、本解析で得られた情報をExcel形式にまとめています。
ファイルはResult_RNASeq_Excelフォルダ内の
Novel Transcript Analysisに以下名称にて保管されています。

  • Expression_Profile_with_Novel.GRCh38.transcript.xlsx

※こちらは転写産物のリストとなります。

  • Expression_Profile_with_Novel.GRCh38.genes.xlsx

※こちらは遺伝子でのリストとなります。

Differentially Expressed Gene Analysis Results

こちらの項目の解析結果の内容は
「Result_RNASeq_Excel 」「 DEG_Result 」に格納されている、 レポートファイル“Analysis_Result.html”にまとめています。
こちらのレポートファイルと併せてご確認ください(例 1) 。

以下6 項目に関してこれ以降でご案内します。
①遺伝子のフィルタリング
②各サンプルの相関関係の把握
③発現変動遺伝子の分布状況の確認
④Heatmap Analysis
⑤GO Enrichiment Analysis
⑥KEGG Enrichiment Analysis 
※解析希望時のみ、有償オプション。

例1 Analysis_Result.html について

例2 Expression Profile.GRCh38.gene.xlsx
データ解析で使用しております数値データのRaw data は以下の名称でフォルダに格納されています。
・Raw data : Expression Profile.GRCh38.gene.xlsx
※ “result_RNAseq_excel” 内の ”Expression Profile”フォルダに格納。
・Normalization 後の Raw data : data2.xlsx
・FC 値、 P 値を加味した統計データ : data3_fc2_&_raw.p.xlsx

全比較内容のうち少なくとも1 つにおいて、|fc|≧ 2 、raw.p < 0.05 の条件を満たす遺伝子をフィルタリングした結果をまとめたものが、”data3_fc2_&_raw.p.xlsx “となります。

例3 data3_fc2_&_raw.p.xlsx

全比較内容のうち少なくとも1 つにおいて、|fc|≧ 2 、raw.p < 0.05 の条件を満たす遺伝子をフィルタリングした結果をまとめたものが、”data3_fc2_&_raw.p.xlsx “となります。

【カラム項目詳細 】

  • A 列: Gene ID
  • B 列: Transcript ID
  • C 列: Gene Symbol
  • D 列: データベース記載の遺伝子説明
  • E 列: 遺伝子の分類
  • F 列: Protein ID
  • G 列: HGNC(HUGO Gene Nomenclature Committee) ID
  • H 列: MIM(Mendelian Inheritance in Man) ID
  • I 列: Ensembl ID
  • J 列: IMGT/GENE DB ID
  • K 列: Test/Control での Fold Change(FC) 値
  • L 列: Test/Control での log Counts per Million reads (CPM) 値
  • M 列: Test/Control での P 値
  • N 列: Test/Control での FDR correction P 値

OーX 列につきましては、各サンプルごとの平均値、 raw signa の TMM 補正値、リードカウント、FPKM 値、 TPM 値を記載しています。
※詳細は“ Analysis_Result.html”“ III-5. Column Information ”にございます。
こちらのExcel ファイルに GO Enrichiment Analysis 、 KEGG Enrichiment Analysis ※オプション の結果も別シートで記載していますので、あわせてご確認ください。

①解析対象遺伝子のフィルタリング

例1 Distribution of genes with various number of zero counts

いずれかのサンプルでリードカウントが0となった遺伝子を解析対象から外すゼロカウントフィルタリングを行います。図ではサンプルデータごとにリードカウント=0の遺伝子をフィルタリングし、サンプル数を跨いで0となる遺伝子数を表示しています。全てのサンプルで発現している遺伝子のみ(青Box)、以降の解析では使用しています。
※Raw dataのExcelにはリードカウントが0の遺伝子も記載しています。

ご希望いただいた場合、0カウントフィルタリングの条件を変更して、再解析も可能ですので、ご希望の場合は担当者にご連絡ください。

例2 Whole genome resequencing analysis process
リードカウントを基にTest/Controlで計算しFold change(FC)を算出。あわせてp値も算出し、|FC|≧2かつp値 < 0.05の遺伝子をフィルタリングしています。
(フィルタリングされる遺伝子数が極端に少ない場合は|FC|≧1.5にて、フィルタリングを行う場合もあります。)

例2 Whole genome resequencing analysis process

リードカウントを基にTest/Controlで計算しFold change(FC)を算出。あわせてp値も算出し、|FC|≧2かつp値 < 0.05の遺伝子をフィルタリングしています。
(フィルタリングされる遺伝子数が極端に少ない場合は|FC|≧1.5にて、フィルタリングを行う場合もあります。)

②各サンプルの相関関係の把握

各サンプルの相関関係を複数の図表で表しています。

例1Correlation Matrix for All Samples
サンプルデータごとにピアソンの積率相関係数をとり、ヒートマップ化しています。

例2 Hierarchical Clustering Analysis
サンプルデータごとのノーマライズ値を元に、発現の類似性を階層的に表しています。

例3 Multidimensional Scaling Analysis
二次元プロットにより、発現量のばらつきとサンプルとの相関を表しています。

③発現変動遺伝子の分布状況の確認

|FC|≧2かつp値 < 0.05の遺伝子に対して各種Plotを作図しています。

例1 Volcano Plot between TEST vs CTRL
縦軸をp値の対数、横軸をFC値の対数として分布図化することで、|FC|≧2かつp値 < 0.05の遺伝子の(青色(-), 黄色(+))の分布を表しています。
※n≧2の際に作成されます。

例2 MA Polt between TEST vs CTRL
縦軸をFC値の対数、横軸を発現量の相乗平均
として分布図化することで、
|FC|≧2かつp値 < 0.05の遺伝子(水色、青色)の分布を表しています。
※解析結果によっては|FC|≧2が条件でない場合もございます。

④Heatmap Analysis

例1 Heatmap
|FC|≧2かつp値 < 0.05の遺伝子に対してあわせてノーマライズしたすべてのサンプル及び各比較パターンごとにHeatmapを作成しています。

⑤GO Enrichiment Analysis

Gene Ontology(http://geneontology.org/) database登録情報より、発現量変動が大きかった遺伝子がBiological Prosess (BP), Cellular Component (CC), Moleculer Function (MF)の3つの観点からどのような機能グループ(GO term)に属するかを分類し、発現量変動の大きかったGO termの一覧表及びPlotを作成しています。

例1 Biological ProcessにおけるGO解析結果
検定によるp値< 0.05, 0.01, 0.001における、上位20位までの遺伝子をグラフ化しています。

  • 縦軸:遺伝子系統名
  • 横軸:全体の遺伝子数における該当遺伝子数の割合
  • ●:遺伝子数の割合
  • カラーバー:p値

「result_RNAseq_excel」→「DEG_result」→「gprofiler」内に各種Plotが格納されてます。比較パターンごとのフォルダ内には“gprofiler.bar.png”および“gprofiler.png”がありますが、同一内容の図表の表示の仕方を棒グラフ(.bar.png)とドットプロット(.png)で表しています。例1はドットプロットでの図表となります。

【sizefilt.png につきまして 】
格納されております“gprofiler.sizefilt.png” は、p-value が 0.05 未満かつ term_size が 10~500 のもののみから作成された Plot になります。

GO termは term size( その term に含まれる遺伝子数)が様々です。非常に大きいまたは小さいGO term は、計算方法によっては、統計的有意性が大きく算出されることがあります。そのため、通常の解析結果と合わせて、term size が 10-500 にフィルタリングして、別途作成した Plot も納品しています。

例2 GO_statSheet
データ解析で使用しております数値データのRaw data は
以下の内容で“data3_fc2_&_raw.p.xlsx” に記載しています 。
・GO_stats
・GO_genes

⑥KEGG Enrichiment Analysis

KEGG(https://www.genome.jp/kegg/kegg_ja.html)というdatabaseの情報に、各比較パターンでの発現量変動を当てはめることで、各Pathway 上でどのような遺伝子に有意な変化があったかを図示しています。

例1 Description of KEGG pathway map frame

各Pathwayで有意差のあった遺伝子の発現量比を8.のような色分けでPathwayマップ図内に表しています。
また、各pathwayで重要なモジュールには★マークを付けています。
※Pathwayマップは KEGG データベースに登録の情報を使用しているため、お客様の希望に合わせての作図・改定の対応は致しかねます。

例2 KEGG_stat Sheet
データ解析で使用しております数値データのRaw data は
以下の内容で“data3_fc2_&_raw.p.xlsx” に記載しています 。
・GO_stats
・GO_genes

SNP and Indel Discovery
※有償オプション。生物種によっては対応できないため事前にご相談ください。

※有償オプション。生物種によっては対応できないため事前にご相談ください。

シーケンス結果をリファレンス情報にマッピング、SNV calling 後、Annotationを付与した結果を納品します。
解析結果は“SNV_Call サンプル名.xlsx”の Excel 形式にて格納されています。

例1 SNV 納品結果例

各項目の詳細につきまして、PDF ファイルにまとめがあります。
以下で示しておりますリンクが納品物 PDF にありますので、こちらよりご取得・ご確認ください。

Fusion Gene Prediction Results
※有償オプション。生物種によっては対応できないため事前にご相談ください。

※有償オプション。生物種によっては対応できないため事前にご相談ください。

以下3種類のProgramを使用した予測結果を納品しています。

● Defuse program
Defuseprogramを使用し、マッピング状況から2遺伝子間を跨ぐリードを抽出し、融合遺伝子を予測します。
の図はExcel形式での納品例。

● Fusion Catcher
Fusion Catcherを使用し、Mapping状況から既知融合遺伝子であるか否か、また、転座、キメラかを予測します。
                ※の図はExcel形式での納品例。

● Arriba
Arribaを使用し、 STAR aligner でのマッピング状況から融合遺伝子を予測、および融合までの動態を図示しています。
※Arribaが使用できるのは human のみとなります。
※PDFファイル、 Excel 形式での納品。

  1. 融合遺伝子形成までの模式図
    ※染色体情報、 Coverage, 、転写様式、配列、BreakPointの内容が確認できます。
  2. Circos Plot
    ※各染色体ごとに 全 ゲノム情報を環状に表記し、融合している部位を線つなぎで表示しています。
  3. 予測融合遺伝子のドメイン構造の模式図
    ※Excel形式での納品例(例4) 。

例3 Arriba による解析結果

例4

Data Download Information

Raw dataおよび解析結果のダウンロードリンクが記載されています。
Raw data(fastqファイル)は論文投稿時に行うデータベース登録時に、また、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルです。
ダウンロードできる期間は約2週間となっておりますので、必ず期間中に全てのファイルをダウンロードして下さい。また、ダウンロードしたfastq.gzファイルはファイルに破損がないかの確認のため、必ず”md5sum値”の照合を行ってください。ご確認をお願いしております。
確認、照合方法につきましては”CAUTION”をご確認ください。

CAUTION
納品物につきまして

弊社pdf 形式のレポートファイルの、 Data Download Information の頁にRaw dataおよび解析結果のダウンロードリンクがあります。

Raw dataはデータベース登録時や、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルとなります。

ダウンロードできる期間は約2週間となっておりますので、必ず全てのファイルをダウンロード頂きますよう、宜しくお願い致します。なお、2週間経過後も3ヵ月はデータを保管しておりますので、再度ダウンロードが必要な場合はngs@macrogen-japan.co.jpまでご連絡ください。

md5sum値の確認

ダウンロードしたFastq.gzファイルもしくはHDD内のFastq.gzファイルは、ファイルの解凍前に”md5sum値”のご確認くだい。
”QuickHash-GUI”という、フリーのアプリケーションもございます。https://www.quickhash-gui.org/downloads/
もしお手持ちのソフトウェアが無ければこちらをご取得下さい。

QuickHash-GUIでのmd5sum値の確認方法は下記となります。

“QuickHash-GUI.exe”アプリケーションを起動します(例1)。
①“FileS”タブをクリックし、
②“Algorithm”、”MD5”を選択してください。md5sum値を確認したいfastqファイルが入っているフォルダを
③“Select Directory” から選択していただきますと、自動的に解析が進行致します。

出力は、csvファイルまたはtxtファイルとして保存することができます。
使用するシステムの性能により、処理に時間がかかる場合がございます。表示された数字と、レポートに記載のmd5sum値の一致を確認できましたら作業完了となります。あわせてQuickHash-GUIのユーザーマニュアルもご確認ください(例2)。

例1 QuickHash-GUI起動画面

例2 QuickHash-GUIfile中身

納品レポートの見方
           
-ASV解析-

※本”納品レポートの見方”中のデータは一般的な納品例となっております。
お手元のレポートと一致しない場合もございますので、ご了承ください。

RAW DATA について

Raw_dataフォルダ内の report.html が Raw Data に関する報告書です。
Order情報や得られた Raw Data に関する情報、 fastq ファイルのダウンロードリンクが含まれます。

ORDER INFORMATION

Orderに関する情報

本案件で使用したライブラリ調製キット、シーケンサーを記載しています。シーケンサー機種名について、
下記例では“illumina system”と記載がありますが通常弊社でASV 解析をご依頼の場合 MiSeq シーケンサーを使用しており、レポートではType of ReadはPaired-end 、 Read Length は301と表記されます。

illumiina MiSeq System
https://jp.illumina.com/systems/sequencing platforms/miseq.html

【Order Informationの例】
レポート左部のOrder No をクリックすると、Order Informationが表示されます。

RAW DATA RESULTS

Raw Dataに関する情報

得られたリードのリード数、GC %、 Quality を記載しています。

例1 Raw Data Statistics
Phredというプログラムで算出した Quality Score(QS)
=Phredクオリティスコアベースコールにおけるエラー率の予測指標
Q20(%):Phred QSが20以上の塩基の割合
Q30(%):Phred QSが30以上の塩基の割合
※QSの詳細は Appendix の Result File Description にも記載があります。

例2 Quality by Cycle
FASTQCというプログラムで算出した QS を基に、Forward(read1)および Reverse(read2) について、リードの位置ごとの QS を図示しています。
緑色領域:Good Quality 、黄色領域: Acceptable Quality 、赤色領域: Bad Quality を示しており、
得られたリードを平均して評価した際に、どのQuality にあたるのか確認できます。
縦軸:QS 横軸:リード上での位置

例2 Quality by Cycle
FASTQCというプログラムで算出した QS を基に、Forward(read1)および Reverse(read2) について、リードの位置ごとの QS を図示しています。
緑色領域:Good Quality 、黄色領域: Acceptable Quality 、赤色領域: Bad Quality を示しており、
得られたリードを平均して評価した際に、どのQuality にあたるのか確認できます。
縦軸:QS 横軸:リード上での位置

DELIVERABLES

Raw Data(fastqファイル)のダウンロード

Raw dataは論文投稿時に行うデータベース登録時に、また、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルです。
ダウンロードできる期間は約2週間となっておりますので、必ず期間中に全てのファイルをダウンロードして下さい。
また、ダウンロードしたfastq.gz ファイルはファイルに破損がないかの確認のため、必ず”md5sum 値”の照合を行ってください。
確認、照合方法につきましては末尾”CAUTION” をご確認ください。

【fastqファイルダウンロードページの例】
ファイル名をクリックすると、ダウンロードが開始されます。

           
ASV 解析結果について
           

「受託番号_ASV 」フォルダ内のReport.html が ASV 解析に関する報告書です。 解析結果の生データや図表、解析のフローをまとめています。※下記納品フォルダの例

①Summary‐ASV
QC_statistics.xlsx: 生データ、クオリティフィルター、除去されたキメラリードなどの配列数を表したものです。 ASVs_rep.fasta: 各ASVの塩基配列。

② Taxonomy解析(DB)
(_DB)TAXONOMY_Assignment.xlsx:各ASVのTaxonomy解析のエクセルファイル。 Top20_Taxonomy_Input.xlsx: グラフに利用されている上位20のTaxonomyの存在比率を示したファイル。属、種などの各Taxonomyレベルごとにシートを分けて示されています。

③ Taxonomy解析( Count, Ratio)
ASVs_table._L.txt:各Taxonomyレベルごとに微生物の存在比率(または配列数)をまとめたデータを報告します。 Taxonomy_abundance_count.xlsx: 各サンプルに対応するリードカウントを、 Taxonomyレベルごとに別々のシートで表示します。 Taxonomy_abundance_ratio.xlsx: 各サンプルに対する相対的な比率を示しています。

④ Alpha_Diversity (Community_diversity)
Diversity_Index.xlsx: サンプルごとのshannon 、 simpson 、PD_whole_tree、ASV値を1つの表にまとめています。

⑤ Beta_Diversity (DistanceMatrix, PCoA, UPGMA_tree)
_PC.xlsx: PCoA解析の結果。各主成分(PC)の分散と寄与率(%)を示しています。 _DistanceMatrix.xlsx: Bray Curtis, Weighted UniFrac, Unweighted UniFracで定義された各サンプルのDistance Matrixが示されています。 UPGMA_ _.tree: Distance Matrix (Bray Curtis, Weighted UniFrac, Unweighted UniFrac)のUPGMA法によるクラスタリング結果が.tree形式で示されています。

       

ANALYSIS PROCEDURE

解析手順

解析全体の流れを記載しています。
納品HTMLの「METHODS」をクリックすると、解析の詳細をまとめた内容を確認できます。
あわせてご確認ください。

RESULTS OF ANALYSIS

① QC Statistics
Data Summary
           

  • Rawdata: 生のリードカウント
  • Adapter & Primer Trimmingデータ: アダプター/プライマートリミング後のリードカウント
  • Preprocessing Length Trimming : 前処理でのLengthトリミング後のリードカウント
  • Quality filter : Q値でフィルタリングした後のリードカウント
  • denoisedFor: DADA2エラーモデルでフィルターした後の順方向リードカウント
  • denoisedRev: DADA2エラーモデルを用いてフィルタリングした後の逆方向のリードカウント
  • mergedPair: DADA2 の mergepairs 関数を用いて算出したリードカウント
  • non chimeric: キメラを除去した後のリードカウント
  • ASV Length Filter: Lengthトリミング後の最終リードカウント

      ②Taxonomy Analysis
                 
      Taxonomy Krona

      サンプル毎の群集組成を円グラフで示しています。 グラフの表示名を選択することで、その分類群が占める割合(%)が表示されます。 左上の項目で使いやすいサイズに変更可能です

       
                             
      Taxonomy Bar plot(phylum)

                  各サンプルの分類学的構成を門レベルから属レベルまで示しています。 プロットにマウスオーバーすると分類群がどの割合に該当しているかを確認でき、 上の項目より確認したい分類レベルや使用したい色、グラフに必要な分類を選択可能です。

      【分類学的構成(属レベル)を棒グラフで表示した例】
      x 軸:サンプル名  y軸: ASV の割合

                 
      Taxonomy Heatmap polt(phylum)
                 

      各サンプルの門から属レベルまでの分類学的構成を示しています。
      プロットにマウスオーバーすると、どの分類群が表示された割合に該当しているかを確認できます。
      上の項目より分類レベルとカラーパターン等の表示を変更可能です。
      (x軸:サンプル名、y軸:上位分類群(最大20)の相対的割合)

                 
      ③ Diversity anaalysis
      Alpha diversity

      サンプル毎のα多様性を記載しています。
      ※α多様性:ある1つのサンプルの多様性
      ※β多様性:サンプル間の多様性(類似性・非類似性)

      Community Diversity by Sample
      ・Shannon指数:群集における種の多様性を示す指数。
      ・Gini-Simpson指数 :群集における種の均等性
      (種間の存在量がどの程度似ているか)を示す指数
      Community Diversity by Group

      • ASVs:ASVの検出数
      • Shannon:種の豊富度と均等度を表す指数
        (希少な種の影響を受けやすい)                      
      • Simpson:種の豊富度と均等度を表す指数
        (主要な種の影響を受けやすい)
      • 各サンプルの系統学的多様性(PD: phylogenetic diversity)
      Diversity Index
      • graph作成に用いられた値

      Rarefaction Curve(ASVs)

      rarefaction curve解析に使用されたリード数が種/ASVの同定に十分であったかどうかを示します。 曲線が右に行くほど平坦になる場合は解析に適切な数のリードが使用されたことを示し、追加のシーケンスは必要ありません。 一方、グラフがフラットにならない場合はリードを追加することでそのサンプルについてより多くのASVが発見される可能性があります。

      【Rarefaction curveの例】
                      x軸:各リード数  y軸: ASVs(ASVs, Shannon, Gini-Simpson, PD_Whole_treeで作成)                

       
      Dastance Matrix(Heatmap)

      • Bray Curtis
      • 群集が似ているときに 0 となり、全く異なる際に最大値 1 を示します。
      • Weighted UniFrac
      • 微生物の存在量を考慮 (リード数の重みをつけて評価)
      • Unweighted UniFrac
      • 微生物の存在量は考慮せず在、不在で評価
       

      【Dastance Matrix Bray Curtisの例】
                     

                 
              
      UPGMA tree (平均距離法)

      サンプル間の類似度(非類似度)を視覚化するために、階層的クラスタリング解析を行った結果です。群集構造が近いサンプル同士でクラスタリングされます。

      【UPGMAの結果例】

       
      PCoA(主座標分析)

      PCoAはサンプル間の類似度(非類似度)を視覚化するものです。群集構造が類似しているサンプル同士は近くに、そうでないものは離れてプロットされます。2D、3D(一定のサンプル数が必要) の2種類を作成しております。

      【PCoAの結果例(2D)】
      各軸には寄与率が与えられ、情報量の何%をその軸で説明できるかを表します。例ではサンプル間の群集構造の違いを数値化したUnifrac distanceを解析に使用しています。
      グループ情報を指定した場合、グループごとに色分されたプロットが出力されます。

      【PCoAの結果例(3D)※サンプル数4サンプルから】
      各軸には寄与率が与えられ、情報量の何%をその軸で説明できるかを表します。
      例ではサンプル間の群集構造の違いをそれぞれ数値化したデータを使用しています。
      グループ情報を指定した場合、グループごとに色分されたプロットが出力されます。

      PROGRAM

      ASV解析に使用したプログラム

      • Cutadapt
      • DADA2
      • QIIME
      • Mafft
      • FastTreeMP
      • BLAST
      • Bayesian
      • VSEARCH
                   ※納品例の取得方法はこちらの納品例をご確認ください。

      CAUTION
      納品物につきまして

      「Raw_data 」フォルダ内の report.html が Raw Data に関する報告書です。
      報告書の左側のメニューより、リードクオリティの確認、Raw Data(fastqファイル)のダウンロードが可能です。

      ASV解析結果は「受託番号 _ASV」フォルダからご確認ください。
      Raw data(fastqファイル)は論文投稿時に行うデータベース登録時に、
      また、弊社でのデータ保管期間経過後に、追加データ解析をご希望の場合に必要なファイルです。

      ダウンロードできる期間は約2週間となっておりますので、必ず期間中に全てのファイルをダウンロードして下さい。
      なお、2 週間経過後も 3 ヵ月はデータを保管しておりますので、再度ダウンロードが必要な場合はngs@macrogen-japan.co.jp までご連絡ください。

      md5sum値の確認

      ダウンロードしたFastq.gzファイルもしくはHDD内のFastq.gzファイルは、ファイルの解凍前に”md5sum値”のご確認くだい。
      ”QuickHash-GUI”という、フリーのアプリケーションもございます。https://www.quickhash-gui.org/downloads/
      もしお手持ちのソフトウェアが無ければこちらをご取得下さい。

      QuickHash-GUIでのmd5sum値の確認方法は下記となります。

      “QuickHash-GUI.exe”アプリケーションを起動します(例1)。
      ①“FileS”タブをクリックし、
      ②“Algorithm”、”MD5”を選択してください。md5sum値を確認したいfastqファイルが入っているフォルダを
      ③“Select Directory” から選択していただきますと、自動的に解析が進行致します。

      出力は、csvファイルまたはtxtファイルとして保存することができます。
      使用するシステムの性能により、処理に時間がかかる場合がございます。表示された数字と、レポートに記載のmd5sum値の一致を確認できましたら作業完了となります。あわせてQuickHash-GUIのユーザーマニュアルもご確認ください(例2)。

      例1 QuickHash-GUI起動画面

      例2 QuickHash-GUIfile中身