Článek publikovaný dnes v časopise Open-Access GigaScience poskytuje data, která efektivně ztrojnásobují počet rostlinných druhů s dostupnými genomovými daty. Toto obrovské množství práce přichází na pozadí rostoucího úsilí vědecké komunity sekvenovat více rostlinných genomů, aby bylo možné porozumět jejich složitému vývoji a poskytnout praktické informace pro zlepšení zemědělského výnosu. K dnešnímu dni bylo sekvenováno přibližně 350 genomů suchozemských rostlin. Touha po více sekvencích rostlinného genomu byla nedávno zdůrazněna oznámením projektu 10KP, jehož cílem je nakonec sekvenovat 10 000 rostlinných genomů, aby se vyřešil vývoj všech hlavních větví rostlinného stromu života. Práce zde poskytuje obrázky, nezpracovaná sekvenační data, sestavené chloroplastové genomy a předběžná sestavení jaderného genomu – vše volně dostupné. Toto dílo je ve skutečnosti digitální reprezentací celé botanické zahrady.
Výzkumníci z China National GeneBank, BGI a Forestry Bureau of Ruili, Čína odebrali a sekvenovali 761 vzorků, které představují 689 druhů cévnatých rostlin ze 137 čeledí a 49 řádů. Vzorky rostlin jsou všechny z 500hektarové botanické zahrady v Ruili, subtropické části Číny sousedící s Myanmarem. Vzhledem k tomu, že se zahrada nachází v biologicky bohaté části Číny, je odhodlána chránit ohrožené a čínské endemické rostliny, včetně uchování a archivace těchto zdrojů zárodečné plazmy, aby pomohla jejich dlouhodobé ochraně. Tento projekt je světově prvním vědeckým a systematickým pokusem o digitalizaci celé botanické zahrady na základě informací o genomických i voucherových vzorcích.
Pokud jde o vědecký potenciál tohoto zdroje, generální ředitel a autor BGI v článku Xun Xu zdůrazňuje, že: „Současné chápání evoluce rostlin a jejich diverzity ve fylogogenomickém kontextu je omezené kvůli nedostatku genomového rozsahu. informace napříč fylogeneticky různorodými druhy. Tento inovativní projekt integruje nový způsob uvažování o digitalizaci všech druhů rostlin s cílem rozšířit evoluční a ekologický výzkum v botanických zahradách."
Celkem výzkumníci vytvořili 54 terabajtů sekvenačních dat s průměrnou hloubkou sekvenování 60X na jeden druh. Kromě základního úkolu provést sekvenování DNA na tomto počtu druhů bylo dalším hlavním úkolem rozšíření identifikace druhů, digitalizace snímků vzorků a vybudování nového herbáře pro jejich uložení v nové čínské národní genové bance (CNGB). herbář v Shenzhenu. Doposud ze 761 exemplářů umožnila sekvence a údaje o chloroplastech identifikaci 257 rostlin na úrovni druhu a 504 na úrovni čeledi. Hluboké učení bylo také úspěšně aplikováno na 181 druhů, aby je bylo možné identifikovat na úrovni druhu.
Autor Ting Yang říká, že to bylo „největší množství dat, jaké jsem kdy zpracoval. Během analýz dat si myslím, že největší výzvou byla kontrola sekvencí a zkoumání výsledků." To vyžadovalo, aby výzkumníci individuálně zkontrolovali sekvenační data každého ze 761 vzorků a porovnali sekvence genů chloroplastů s herbářovými vzorky pro identifikaci druhů.
Dalším problémem souvisejícím s tím, jak se jednoduše dostat do bodu, kdy je možné provést sekvenační práci, bylo shromáždit všechny vzorky. Autor Jinpu Wei uvádí: "Spolupracovali jsme s odborníky z Ruili Forestry Bureau na sběru rostlinných materiálů distribuovaných v oblasti Ruili pro zřízení digitální botanické zahrady. Po 45 dnech únavného úsilí jsme shromáždili 1 093 rostlinných materiálů. I když pro nás bylo náročné přepravit materiály správně, nakonec se nám podařilo zajistit vysokou kvalitu těchto rostlinných materiálů pro budoucí výzkum."
Odpovídající autor, Xin Liu, dodává, že projekt „byl základním projektem pro doladění a standardizaci vzorkování, metodologie a akumulace dat a technik analýzy pro rozsáhlé genomové projekty, jako je 10KP (10 tisíc rostlin Projekt genomu). Z tohoto projektu jsme získali značné a užitečné zkušenosti pro následný odběr vzorků, sekvenování a montáž. Zároveň lze data získaná z této studie efektivně využít v následných genomových projektech."
Navzdory tomu, že pro každý druh vytvořili pouze jednu sekvenační knihovnu, byli autoři schopni sestavit předběžné genomy pro 17 z nich, což odráží kvalitu a potenciál opětovného použití DNA. Vědci z Čínské univerzity v Hongkongu již nezávisle sestavili genomy druhů, které je zvláště zajímají. Potenciál pro širší výzkumnou komunitu studovat jejich zájmové druhy, zlepšovat jiné genomy, vyvíjet nástroje a metody a poskytovat příležitosti ke vzdělání novým generacím vědců je obrovský.
Hlavní autor Huan Liu dodal, že „Genomická charakterizace poskytne velké množství základních dat pro sestavení genomu rostlin, což bude skvělý začátek pro projekt 10KP. Zároveň pokládá dobrý základ pro budoucí výzkum korelačního mechanismu od makroskopické ekologie a biodiverzity po mikroskopickou molekulární úroveň."
Pro podporu rozsáhlejšího sdílení dat, než jen zpřístupnění sekvenčních dat, vědci zpřístupňují také digitalizované obrázky a poskytují přístup k herbáři. Herbář (HCNGB) slouží jako databáze živých rostlin, která zaznamenává polohu druhů pěstovaných v botanické zahradě Ruili a sleduje stav každého druhu.
Všechna zde vytvořená digitální data (obrázky, nezpracovaná sekvenační data, sestavené genomy chloroplastů a předběžná sestavení jaderného genomu) jsou dostupná prostřednictvím NCBI SRA, GigaScience GigaDB databáze a China National GeneBank CNSA. Navíc, aby bylo možné data vyhledávat a genomy a identifikaci druhů aktualizovat, jsou metadata indexována a propojena přes Datacite a GigaDB. A všechny zdroje jsou uvolněny bez omezení v rámci výjimky CC0. Autor Dr. Sunil Kumar Sahu zdůraznil, že toto je nejdůležitější dědictví projektu „Tento soubor dat má velkou hodnotu pro výzkumníky rostlin, a co je důležitější, může sloužit jako reference pro budoucí projekty sekvenování genomu na planetární úrovni, včetně projektu Earth BioGenome Project (EBP) a projekt 10 tisíc rostlinného genomu (10KP)."