Sestavení transkriptomu De Novo a objevení genu Cistanche Deserticola Fleshy Stem-Ⅰ

Pozadí

Cistanche deserticola je zcela nefotosyntetická parazitická rostlina s velkou léčivou hodnotou a je rozšířena především v poušti severozápadní Číny. Jeho sušená masitá nať je zásadním tonikemtradiční čínská medicínas rolemi hlavně zlepšení mužské sexuální funkce a posílení imunity, ale bylo provedeno jen málo mechanistických studií částečně kvůli nedostatku genomických a transkriptomických zdrojů.

Natural cistanche tubulosa

PŘÍRODNÍ CISTANCHE TUBULOSA ČÍNSKÁ TRADIČNÍ MEDICÍNA PHGS75% ECH 30% ACT 12%

Výsledky

V této studii jsme provedli sekvenování hlubokého transkriptomu v masitém kmeni C. deserticola a pomocí sekvenování párových konců Illumina na platformě HiSeq2000 bylo generováno asi 80 milionů čtení. Pomocí trinity assembleru jsme získali 95 787 transkriptových sekvencí s délkami transkriptu v rozmezí od 200 bp do 15 698 bp, s průměrnou délkou 950 bází a délkou N50 1 519 bází. 63 957 transkriptů bylo identifikováno jako aktivně exprimované s FPKM větším nebo rovným 0,5, ve kterých bylo 30 098 transkriptů anotováno genovými popisy nebo termíny genové ontologie analýzou podobnosti sekvencí proti několika veřejným databázím (Uniprot, NR a Nt v NCBI a KEGG) . Dále jsme identifikovali klíčové enzymové geny zapojené do biosyntézy ligninu a fenylethanoidních glykosidů (PhGs), o kterých je známo, že jsou primárními aktivními složkami. Na základě srovnání sekvencí a fylogenetické analýzy byly identifikovány čtyři geny pro fenylalanin amonnou lyázu (PAL), první klíčový enzym v biosyntéze ligninu a PhG. Poprvé byly také navrženy dvě cesty biosyntézy PhGs.

Závěry

Celkově jsme dokončili globální analýzu transkriptomu masitého kmene C. deserticola pomocí technologie RNA-seq. Ze sestavených a anotovaných transkriptů byla identifikována sbírka enzymových genů souvisejících s biosyntézou ligninu a fenylethanoidních glykosidů a byla také predikována genová rodina PAL. Sekvenční data z této studie poskytnou cenný zdroj pro provádění budoucího výzkumu biosyntézy fenylethanoidních glykosidů a funkčních genomických studií v této důležité léčivé rostlině.

Zavedení

C. deserticola je celosvětový rod vytrvalých pouštních rostlin z čeledi Orobanchaceae a je zcela nefotosyntetickým druhem a obvykle roste podzemní holoparazitická rostlina. Parazituje na kořenech psamofytu Haloxylon ammodendron (Chenopodiaceae), který pro svou vysokou toleranci k suchu a zasolení obývá především pouště a polopouště. C. deserticola vykazuje silnou odolnost vůči drsným podmínkám prostředí a je rozšířena hlavně v severozápadní Číně, zejména ve Vnitřním Mongolsku, Gansu a Sin-ťiangu. Kvůli zvýšené konzumaci lidmi je v posledních letech považován za ohrožený volně žijící druh. C. deserticola, která se často nazývá pouštní ženšen, je běžně známá jako pouštní košťál a sušený dužnatý stonek se v Číně a Japonsku po mnoho let široce používá jako tradičně důležité tonikum. Původně byl zaznamenán v Shen Nong Ben Cao Jing (Dictionary of Chinese Materia Medica, 1977) přibližně před 1800 lety a byl považován za jeden z hlavních zdrojůČínská léčivá bylina Cistanche.

Chinese cistanche tubulosa

PŘÍRODNÍ CISTANCHE TUBULOSA PRO ZLEPŠENÍ SEXUÁLNÍ FUNKCE PHGS75% ECH 30% ACT 12%

Extrakty C. deserticola mají širokou škálu léčivých funkcí, zejména pro použití při zlepšení sexuálních funkcí, tonizaci ledvin, ochraně jater, aperitivní činnosti, posílení paměti, imunomodulační, antioxidační, protizánětlivé, antivirové působení atd. hlavní bioaktivní složky C. deserticola jsou fenylethanoidní glykosidy (PheGs, PhGs). Dosud bylo izolováno více než 20 fenylethanoidových glykosidů ze sukulentního kmene C. deserticola. Mezi nimiakteosid a echinakosidjsou dvě hlavní složky s významnými farmakologickými aktivitami a jsou dokumentovány jako standardy kvality C. deserticola v čínském lékopisu (vydání z roku 2005 a 2010). Tři chemické složky PhG jsou organická kyselina, sacharid a fenylethanoid, avšak podrobnosti týkající se biosyntetických drah fenylethanoidů zůstávají u C. deserticola špatně pochopeny.

Navzdory komerčnímu a lékařskému významu C. deserticola jsou genomická a transkriptomická data tohoto druhu velmi omezená. V databázi NCBI nejsou k dispozici žádné EST a kompletní informace o genomu pro tento druh zůstávají nedostupné kromě sekvence genomu chloroplastů. Omezená transkriptomická data brání studiu mechanismů biosyntézy PhG. Technologie RNA-seq může generovat sekvence exprimovaných částí cíleného genomu a identifikovat geny [18] pomocí technologických platforem NGS (jako Applied Biosystems SOLiD, Illumina HiSeq a Roche 454). Stává se stále populárnější v sestavování transkriptomu de novo, protože je to nákladově efektivní a výkonný přístup s vysokým rozlišením a širokým dynamickým rozsahem, zejména proto, že má výhodu prozkoumat přepisy s nízkou četností. Kvůli různým výhodám je RNA-seq specificky atraktivní pro nemodelové organismy s omezenými genetickými zdroji. Neexistuje však žádný podrobný výzkum transkriptomu C. deserticola pomocí RNA-seq.

V této studii jsme globálně sekvenovali kmenový transkriptom pro C. deserticola pomocí platformy Illumina Hiseq2000 a získali 7,9G nezpracovaná data. Sestavením a anotací jsme vytěžili geny zapojené do biosyntézy PhG a geny odpovědné za celou biosyntézu ligninu. Naše analýza RNA-seq vytvořila první konsensus transkriptomu C. deserticola a poskytla nový pohled na komplexní pochopení léčivé hodnoty C. deserticola. Kromě toho může být zde popsaná metoda široce aplikována na profilové transkriptomy pro usnadnění objevu genů zapojených do specifických drah biosyntézy léčivých složek v jiné léčivé rostlině s velmi omezenými genomickými zdroji.

Materiály a metody

Sběr rostlinného materiálu

Čerstvý sukulentní stonek pro C. deserticola ve fázi vykopávek byl sesbírán z rostlinné základny v BayanHot City of Alxa League ve Vnitřním Mongolsku v severozápadní Číně. Povolení ke sběru bylo získáno od vlastníka (HongKui CongRong Group) základny závodu. Vzorek voucheru byl uložen v Core Genomic Facility v Pekingském institutu genomiky, Čínské akademie věd. Po vyčištění byly sukulentní stonkové tkáně nakrájeny na malé kousky a okamžitě zmrazeny v tekutém dusíku a poté skladovány při -80 stupních až do dalšího zpracování.

Extrakce RNA, konstrukce knihovny cDNA a sekvenování Illumina

Celková RNA byla extrahována ze sukulentního stonku pomocí TRIzol Reagent (Invitrogen Inc., Kalifornie, USA) podle pokynů výrobce. Výsledné vzorky byly ošetřeny DNázou I, aby se odstranila jakákoli genomová DNA. Extrahované RNA byly kvantifikovány pomocí bioanalyzátoru Agilent 210}0 (Agilent Technologies) a zkontrolovány na integritu pomocí elektroforézy na denaturujícím agarózovém gelu s barvením ethidium bromidem. V následných analýzách byly použity vzorky RNA s poměry A260/A280 mezi 1,9 a 2,1, poměry RNA 28S:18S vyššími než 1,0 a čísly integrity RNA (RIN) -8,5.

Knihovny RNA-seq byly vytvořeny pomocí souprav Illumina Truseq RNA Sample Preparation Kit. Poly(A)+ RNA byla izolována z celkové RNA pomocí kuliček Dynal ligo(dT)25 podle pokynů výrobce. Po purifikaci byl přidán fragmentační pufr pro rozbití mRNA na krátké fragmenty. První vlákno cDNA bylo syntetizováno s použitím těchto krátkých fragmentů jako templátů spolu s reverzní transkriptázou SuperScript III a náhodným hexamerovým primerem N6. Druhý řetězec cDNA byl poté syntetizován pomocí pufru, dNTP, RNázyH a DNA polymerázy I. Výsledná dvouvláknová cDNA byla podrobena koncové opravě pomocí T4 DNA polymerázy, Klenowova fragmentu DNA polymerázy I a T4 polynukleotidové kinázy a ligována do adaptéry pomocí T4 DNA ligázy. Fragmenty ligované do adaptéru byly purifikovány pomocí extrakční soupravy QiaQuick PCR a eluovány EB pufrem. Po analýze pomocí elektroforézy na agarózovém gelu byly vybrány vhodné fragmenty jako templáty pro PCR amplifikaci. Sekvenování výsledné cDNA knihovny bylo provedeno systémem Illumina HiSeq 2000.

Sestavení transkriptů de novo a kvantifikace genové exprese

Nezpracovaná čtení generovaná ze sekvenování byla vyčištěna odstraněním sekvencí adaptéru (ATCTCGTATGCCGTC) za použití vlastní metody. Poté jsme provedli přísný proces filtrování nízké kvality. Za prvé, báze se skóre kvality phred nižším než 20 by byly oříznuty od 3' konce sekvence, dokud by nenaběhly do jedné báze s vyšší kvalitou (Větší než nebo rovno 20). Pokud by délka čtení byla kratší než 50 bp, byla by vyřazena. Za druhé, čtení budou dále filtrována podle kritéria, že 70 % základů v jednom čtení má vysoce kvalitní skóre (Větší nebo rovno 20). Za třetí, pro další sestavení bylo použito pouze čtení párového konce. Sestavení přepisu de novo bylo provedeno pomocí vydání Trinity{10}} [30], které se skládalo ze tří po sobě jdoucích softwarových modulů: Inchworm, Chrysalis a Butterfly. Parametry sestavy byly nastaveny takto:-seqType fq-JM 300G -min_kontig_délka 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.

Aby se kvantifikovala hojnost transkriptů, sekvenovaná čtení na konci páru byla znovu porovnána se sestavenými transkripty pomocí skriptu v Trinity. Mapované hodnoty byly použity pro kvantifikaci pomocí softwaru RSEM (RNA-Seq by Expectation Maximization). Hojnost genu nebo izoformy byla reprezentována hodnotou fragmentu na kilobázi transkriptu na milion mapovaných fragmentů (FPKM), ty transkripty s hodnotou FPKM rovnou nebo větší než 0,05 byly definovány jako vyjádřené.

Funkční anotace vyjádřených transkriptů

Neexistují žádné sady genových anotací C. deserticola kromě genomu chloroplastů [1]. Vyjádřené transkripty jsme anotovali jejich porovnáním s Genbank Nt, Genbank Nr a TAIR10_ pep_20101214_aktualizovanými datovými sadami samostatně pomocí programu BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.

Anotace genové ontologie a KEGG dráhy Zarovnáním sekvenční podobnosti s databází Uniprot (anotace genové ontologie (GO) všech sestavených transkriptů byla získána pomocí asociačního souboru staženého z (ftp://ftp.ebi.ac.uk/pub/ databases/GO/goa/UNIPROT/gene_asociace goa_uniprot.gz). Kategorie CC, BP a MF samostatně.

Informace o KEGG dráze byly přiřazeny všem předpokládaným proteinovým sekvencím pomocí online nástroje KAAS (KEGG Automatic Annotation Server) [34]. Sekvence ve formátu fasta byly předloženy na žádost KAAS a byly staženy výsledné soubory všech informací o drahách souvisejících s transkriptomem kmene C. deserticola. Pro anotaci metodou BBH (bi-directional best hit) bylo použito 13 sad genových dat rostlinných organismů v KEGG.

cistanche tubulosa extract

PŘÍRODNÍ EXTRAKT CISTANCHE TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%

RT-qPCR analýza

Po štěpení DNázou I bylo přibližně 5 ug celkové RNA převedeno na první vlákno cDNA prostřednictvím reakce reverzní transkripce s oligo(dT)15 primery a GoScript Reverse Transscription System (Promega). Produkty cDNA byly poté 10-krát naředěny deionizovanou vodou bez nukleázy před použitím jako templát v PCR v reálném čase. Specifické cDNA byly amplifikovány systémem GoTaq 2-Step RT-qPCR (Promega) v objemu 20 ul. PCR amplifikace byla provedena při teplotě nasedání 60 stupňů pomocí 7500 Real-Time PCR Detection System (Applied Biosystems) podle pokynů výrobce. Relativní četnost transkriptů byla vypočtena metodou srovnávacího prahu cyklu s genem "comp10579_c0" jako interním standardem pomocí softwaru 7500 Manager.

Páry primerů pro RT-PCR byly navrženy na základě online softwaru (http://primer3.ut.ee/) a jsou uvedeny v datové sadě S1.

Výsledky

Sekvenování RNA a de novo sestavení transkriptomu masitého kmene C. deserticola

Stonek C. deserticola se v Číně a Japonsku po mnoho let široce používá jako tradičně důležité tonikum. Abychom získali globální přehled o genové expresi v masitém stonku C. deserticola, shromáždili jsme vzorky stonků C. deserticola ze stejné rostlinné základny v roce 2013 a 2014. Celkové RNA byly extrahovány a polyA+ RNA byly purifikovány pro konstrukci knihoven RNA-seq s párovým koncem. 79 433 734 a 86 019 176 čtení na konci páru, což odpovídá téměř 8 miliardám a 8,6 miliardám bází sekvence, bylo získáno pomocí sekvenování Illumina HiSeq 2000

platforma v 2013-rokech a 2014-ročních ukázkách (tabulka 1). Po odstranění sekvencí adaptérů a odfiltrování čtení s nízkou kvalitou (viz podrobnosti v části Metody) bylo v 2013-ročním vzorku použito 64 831 040 vysoce kvalitních čtení na konci páru pro sestavení transkriptomu de novo. Pomocí sestavovače sekvencí Trinity [30] bylo generováno 51 719 genů a 95 787 transkriptových sekvencí s délkami transkriptů v rozmezí od 200 bp do 15 698 bp. Průměrná délka sestavených přepisů je 950 bází a délka N50 je 1 519 bází. Počet transkriptů v různých délkách odhalil, že 57,32 % sestavených transkriptů mělo přibližně 500 bp nebo delší (obr. 1A). Vysoce kvalitní čtení párového konce v 2014-ročním vzorku bylo mapováno do sestaveného přepisu. Kromě toho jsme zjistili, že počet transkriptů pro každý sestavený gen se měnil a 69 % genů s jednou exprimovanou izoformou, zatímco 31 % genů exprimovalo dva nebo více transkriptů (obr. 1B).

Kvantifikace exprese a funkční anotace sestavených transkriptů

Množství genu nebo transkriptu bylo kvantifikováno pomocí balíčku RSEM, ve kterém byla sekvenovaná čtení znovu porovnána se sestavenými geny nebo sekvencemi transkriptů pomocí Bowtie, a tato mapovaná čtení byla použita pro kvantifikaci. Byla vypočtena hodnota FPKM pro každý gen nebo transkript a nakonec jsme identifikovali 63 957 a 52 857 aktivně exprimovaných transkriptů (hodnota FPKM větší nebo rovna 0,5) ve vzorcích masitých kmenů C. deserticola ve 2{{17} }13 a 2014. 44 776 přepisů (70,01 % v 2013-ročním vzorku, 84,71 % ve 2014-ročním vzorku) bylo běžně vyjádřeno ve dvou replikátech a korelace (Pearsonův korelační koeficient: 0,91979) jejich dat exprese byla zobrazeno na obr. S1. Surová data sekvenování byla nahrána do databáze NCBI SRA (přístupová čísla: SRX857402 a SRX858938). Pro další analýzu jsme použili exprimované geny identifikované v 2013-ročním vzorku. Funkční anotační informace pro všechny exprimované transkripty byly získány pomocí dvou metod. Nejprve byly všechny exprimované transkripty porovnány se známými databázemi nukleotidů (GenBank nt) a peptidových sekvencí (GenBank nr a peptid Arabidopsis) odděleně pomocí algoritmu BLAST. Z 63 957 vyjádřených přepisů,

29 220 (45,7 %) bylo anotováno a vykazovalo homologii se sekvencemi v kterékoli ze tří předmětných databází s mezní hodnotou E 1e-20. Mezitím byly kandidátní kódující oblasti pro všechny exprimované transkriptové sekvence predikovány pomocí softwaru TransDecoder a nejdelší ORF pro každý transkript byly použity pro vyhledávání domény Pfam. Výsledkem bylo, že na základě databáze Pfam bylo anotováno 21 358 (33,4 %) přepisů. Celkově bylo 30 098 (47,1 %) přepisů významně shodných se známými geny ve veřejných databázích kombinací dvou výše uvedených metod. Kompletní seznam vyjádřených transkriptů s anotací funkcí byl zobrazen v doplňkových datech (S2 Dataset).

Prozkoumali jsme 20 nejvíce exprimovaných transkriptů (tabulka 2), které odpovídají 18,99 % všech čtení sekvenování, a zjistili jsme, že většina z nich jsou geny reagující na abiotické

stresový podnět. Nejvíce exprimovaným genem je dehydrin (DHN), třída hydrofilních a termostabilních stresových proteinů s vysokým počtem nabitých aminokyselin, které patří do skupiny LEA (Group II Late Embryogenesis Abundant). Tři různé dehyrinové transkripty (comp28713_c{1}}seq1/2/4) byly detekovány jako vysoce exprimované v masitých stoncích, které se mohou podílet na ochraně buněk před poškozením způsobeným stresem ze sucha. Další geny související se stresem, jako je protein tepelného šoku, protein související s patogenem a metalothionein, byly také vysoce exprimovány, což může souviset s jeho těžkým prostředím pro přežití. Kromě toho některé konstitutivní geny včetně genu 26S ribozomální RNA (comp22329_c2_seq1), auxinem potlačený/dormance-asociovaný protein (comp20999_c0_seq1), ADP-ribosylační faktor (comp20499_ c0_seq1) byl také vysoce transkribován.

Cistanche tubulosa extract