Definování standardů pro genomy z nekultivovaných mikroorganismů: Rozšíření minimálních informačních standardů pro jednobuněčnou genomiku, datové soubory metagenomiky

Definování standardů pro genomy z nekultivovaných mikroorganismů: Rozšíření minimálních informačních standardů pro jednobuněčnou genomiku, datové soubory metagenomiky
Definování standardů pro genomy z nekultivovaných mikroorganismů: Rozšíření minimálních informačních standardů pro jednobuněčnou genomiku, datové soubory metagenomiky
Anonim

Během průmyslové revoluce se továrny při hromadné výrobě začaly spoléhat spíše na stroje než na lidi. Uprostřed společenských změn se vloudila standardizace, od zajištění identické výroby matic a šroubů, aby byla zachována kvalita výroby, až po standardní rozchod kolejí používaný na obou stranách Atlantiku. Význam norem je dramaticky ilustrován, když neexistují nebo nejsou běžně přijímány, např.např. Mac, vs. PC nebo dokonce libry vs. kilogramy.

Více než století po průmyslové revoluci způsobily pokroky v technologiích sekvenování DNA podobně dramatické posuny ve vědeckém výzkumu a jedním z aspektů je studium biologické rozmanitosti planety. Mikrobi hrají klíčovou roli v regulaci globálních cyklů zahrnujících uhlík, dusík a fosfor mimo jiné, ale mnoho z nich zůstává nekultivovaných a neznámých. Dozvědět se více o této takzvané "mikrobiální temné hmotě" zahrnuje extrakci mikrobiálních genomů z amplifikované DNA jednotlivých buněk az metagenomů. Vzhledem k tomu, že produkce genomických dat v posledních dvou desetiletích vzrostla a je generována na různých platformách po celém světě, vědci spolupracovali na stanovení definic pojmů, jako je „skládání návrhů“a standardy pro sběr dat, které platí plošně. Jedním kritickým termínem, který vyžaduje standardizaci, jsou „metadata“, definovaná jednoduše jako „data o jiných datech."V případě sekvenčních dat mohou metadata zahrnovat, který organismus nebo buňka byla sekvenována, odkud pochází, co dělala, metriky kvality a spektrum dalších charakteristik, které přidávají hodnotu sekvenčním datům tím, že jim poskytují kontext a umožňující lepší biologické pochopení významu sekvence.

Publikováno 8. srpna 2017 v Nature Biotechnology, mezinárodní tým vedený výzkumníky z amerického ministerstva energetiky Joint Genome Institute (DOE JGI), uživatelského zařízení DOE Office of Science, vyvinul standardy pro minimální metadata pro být dodávány s jednotlivými amplifikovanými genomy (SAG) a genomy sestavenými z metagenomu (MAG) předloženými do veřejných databází. "Během posledních několika let se jednobuněčná genomika stala oblíbeným nástrojem pro doplnění metagenomiky," řekla hlavní autorka studie Tanja Woyke, vedoucí DOE JGI Microbial Genomics Program. „Od roku 2007 se ve veřejných databázích objevily první jednobuněčné genomy z environmentálních buněk a jedná se o návrhová shromáždění s kolísáním kvality dat. Genomy sestavené z metagenomu mají podobné problémy s kvalitou. Pro výzkumníky, kteří chtějí provádět srovnávací analýzy, je opravdu důležité vědět, co je součástí analýzy. Robustní komparativní genomika se opírá o rozsáhlá a správná metadata."

Kategorie kvality genomu

Ve své práci Woyke a její kolegové navrhli čtyři kategorie kvality genomu. Návrhy nízké kvality by byly z méně než 50 procent kompletní, s minimální kontrolou sestavených fragmentů a z méně než 10 procent kontaminovaných necílovou sekvencí. Koncepty střední kvality by byly alespoň z 50 procent kompletní, s minimální kontrolou sestavených fragmentů a méně než 10 procenty kontaminace. Vysoce kvalitní návrhy by byly z více než 90 procent kompletní s přítomností genů 23S, 16S a 5S rRNA, stejně jako alespoň 18 tRNA a s méně než 5% kontaminací. Kategorie Dokončená kvalita je vyhrazena pro jednotlivé souvislé sekvence bez mezer a s méně než 1 chybou na 100 000 párů bází.

DOE JGI vygenerovalo přibližně 80 procent z více než 2 800 SAG a více než 4 500 MAG, které jsou v současnosti dostupné na DOE JGI's Genomes OnLine Database (GOLD). Vědec a první autor studie DOE JGI Bob Bowers uvedl, že mnoho SAG, které již jsou ve ZLATĚ, by bylo považováno za koncepty nízké nebo střední kvality. Jedná se o vysoce hodnotné datové sady, i když pro některé účely mohou výzkumníci upřednostňovat použití vysoce kvalitních nebo hotových datových sad. "Jednobuněčné a metagenomické datové soubory se velmi liší ve své celkové kvalitě. Nicméně v případech, kdy je jediným zástupcem nové větve na stromě života nekvalitní fragmentovaný genom, jsou některá data lepší než žádná," dodal. "Uvedení navrhovaných kategorií donutí vědce, aby před odesláním do veřejných databází pečlivě zvážili kvalitu genomu."

Od návrhu k implementaci komunitou

Přechod od návrhu v tisku k implementaci vyžaduje zapojení komunity. Woyke a Bowers pojali minimální požadavky na metadata pro SAG a MAG jako rozšíření stávajících standardů metadat pro sekvenční data, označovaných jako „MIxS“, vyvinutých a implementovaných konsorciem pro genomické standardy (GSC) v roce 2011. GSC je otevřený členská pracovní skupina, která zajišťuje zapojení výzkumné komunity do procesu tvorby norem a zahrnuje zástupce Národního centra pro biotechnologické informace (NCBI) a Evropského bioinformatického institutu (EBI). To je důležité, protože se jedná o hlavní úložiště dat, kde jsou implementovány minimální požadavky na metadata. Díky přímé spolupráci s poskytovateli dat může GSC pomoci jak velkým předkladatelům dat, tak databázím, aby se přizpůsobili standardu MIxS a předložili vyhovující data.

„Standardy MIxS přizpůsobily i další klíčové veřejné systémy pro správu mikrobiomových dat, jako jsou MG-RAST, IMG a GOLD,“řekl Nikos Kyrpides, vedoucí DOE JGI Prokaryote Super Program a člen představenstva GSC. Poznamenává, že jako součást hlavního poslání DOE JGI se Institut zapojil do organizace komunity za účelem vývoje genomických standardů. "GSC bylo nápomocné při sbližování komunity za účelem rozvoje a implementace rostoucího souboru příslušných norem. Ve skutečnosti byla potřeba rozšířit MIxS na nekultivované organismy zjištěna na jednom z nedávných setkání GSC na DOE JGI."

„Tato rozšíření doplňují sadu standardů metadat MIxS tím, že definují klíčové datové prvky relevantní pro popis vzorkování a sekvenování jednobuněčných genomů a genomů z metagenomů,“řekla prezidentka GSC a spoluautorka studie Lynn Schriml z Institute of Genome Sciences na lékařské fakultě University of Maryland. "Tyto standardy otevírají zcela novou oblast zkoumání metadatových dat, protože naprostá většina mikrobů, označovaných jako mikrobiální temná hmota, v současnosti není popsána v rámci standardu MIxS."

Popsala skupinu a její poslání jako komunitní."Myslím, že pomáhá, že lidé vyvíjející standardy jsou lidé, kteří provádějí studie," řekla. "Máme o data zájem. Výzkum roste a rozšiřuje se a je důležité, abychom tato data zachycovali přísným způsobem. Vývoj těchto nových standardů metadat umožňuje výzkumníkům důsledně hlásit ta nejkritičtější metadata pro analýzu. Sběr dat pomocí řízených slovníky usnadňují konzistenci dat, díky čemuž jsou databáze bohatší a znovu použitelné." A je třeba doufat, že sekvenční data doprovázená dohodnutými standardy pro metadata budou nakonec znamenat totéž pro každého, kdo je bude chtít používat.

Populární téma