在野生马赛克大麻pangenome中,驯化的大麻素合酶

  从多个来源选择饱腹c。pangenome样品,以最大程度地提高遗传多样性 ,历史和农艺价值 。Pangenome的很大一部分来自包括精英品种在内的俄勒冈州CBD(OCBD)育种计划;基础大麻线可能起源于1970年代到现在;以及用于育种程序不同方面的精英三重奏(扩展数据图1和2 ,补充表1和补充图1) 。其余品种来自美国农业部(USDA)种质资源信息网络(GRIN)和德国联邦Genebank(IPK Gatersleben)存储库,以及Salk Institute从各种育种者那里进行的收藏品。Pangenome包括欧洲和亚洲纤维和种子大麻,野生种群 ,北美大麻(I型)和北美高大麻素的产量(CBD或CBG)大麻(III和IV型)。额外的大麻素多样性用化学型表示,表现出CBD或THC和无大麻素(V型)植物的戊基或丙基(VARIN)同源物的高表达 。开花时间的变化也被捕获,包括常规短期和日中性(自动花)表型(补充表1)。   EH23A(HO40)和EH23B(ERB)是ERBXHO40_23的单倍型分辨的组件 ,这是由父母,ERB和HO40之间的十字架产生的F1,均为OCBD的女性亲属关系。ERB是与欧洲HC大麻更紧密相关的药物类型组的DN(自动植物) ,III型(CBDA为主导) 。HO40是I型丙基大麻素(THCVA和THCA)产生的,短期开花的反应,并且是药物型大麻群(MJ)的一部分 ,对亚洲大麻有更亲密的亲和力。遗传性雌性(XX)ERB植物被诱导通过用硫代硫酸盐处理并用于授粉HO40来产生雄花。从F1种群中的一个人(ERBXHO40_23)选择进行基因组测序 。使用流式细胞术的ERB×HO40_23的初始基因组大小估计估计的二倍体基因组大小为1445.6 MB(722.8 MB单倍体基因组大小)。从叶组织中提取高分子量(HMW)DNA。在DNA提取和文库制备(请参见“ HMW DNA分离和基因组测序”)之后,HIFI读数是在Pacific Bioscience(PACBIO)续集上产生的 。然后将HIFIASM V0.16.159与HI-C读取一起使用以产生初始组件。组装后,使用Juicer v1.6.2 Pipeline60将HI-C读数与Hifiasm_hic重叠群对齐 ,然后使用3D-DNA Pipeline61的180922进行订购和方向。然后使用Juicebox V1.11.0862手动校正脚手架的组件 。   除了上述全基因组测序数据外 ,ERBXHO40_23还使用银硫代硫酸盐诱导的选择花的男性化自授粉,以创建F2映射群体 。从这个F2人群中,为自动花和varin含量评分了个体 ,并使用Nrgene(Nrgene Technologies)的Illumina 100 BP读取。Illumina WGS基因分型运行是对来自该人群的288种植物以及ERBXHO40_23父母进行的。Trim_galore用于使用以下方式修剪序列:-2颜色20,导致271个个人进行分析63 。平均样品具有8.5倍的覆盖范围。MiniMAP用于将每个样品与EH23B.softMasked.Fasta对齐。FreeBayes用于调用变体:-g 4500 -0 -n 4 - 三重复合尾尾-Min-Alternate-Count 364 。使用BCFTools来过滤质量> 20个分数(存在99%的机会变体)65。最后,然后使用VCFTools66工具进一步过滤SNP: - 误解-Indels -mingq 20 -maf 0.25-----------------------毫米-Min-learteres 2 -max-learteres 2 -max-learteres 2 -Stdout-recode66;仅保留在ERBXHO40_23中为杂合(0/1)评分的位点 ,从而保留了93,251个SNP。   在本研究中所有使用的植物(包括F2后代)的所有植物中,根据彻底描述的先前描述的方案进行了高效的液相色谱法(HPLC) 。简而言之,从每个个体中收集成熟的花组织 ,在-80 c下冷冻并匀浆,然后在甲醇中提取大麻素。   ERBXH040-21在受控的环境条件下生长。在植物的开发过程中收集了各种组织,包括早期和晚花 ,叶子,叶子下的叶子,在12小时的电感光方案下 ,根和芽尖 。使用Qiagen rneasy加制造商协议后的Qiagen rneasy加套件进行总RNA提取。使用Qubit RNA分析和贴纸4200对总RNA进行定量。在库准备之前 ,我们进行了DNase处理,然后进行了Ampure Bead清理和QIAGEN FastSelect HMR RRNA耗竭 。在制造商协议之后,使用Nebnext Ultra II RNA库准备套件进行库准备 。然后 ,这些库以2×150 bp配置的NovaseQ6000平台运行。   我们使用鲑鱼V1.6.068测量了基因表达水平。简而言之,从单倍型(EH23A和EH23B)映射了测序的原始配对端简短读数,并估计了丰度 ,估计了每百万(TPM)的转录本以进行下游分析 。用Samtools FlagStat65计算映射率。给定基因的最小TPM阈值≥0.1。单倍型基因对通过相互的最佳命中识别,并使用BLASTP和MCSCANX69进行同步,并且仅包括两个单倍型之间共享的基因 。施加了单倍型之间的序列相似性和5 tpm差的阈值至少≥95%。使用matplotlib70 ,scipy71和numpy72的组合进行可视化,并在热图中以log2tpm表示表达值,以表示对数折叠的变化。生物过程的富集使用topGo73进行了以下参数:结果体重 <- runTest(topGOdata, algorithm = “weight01 ”, statistic = “fisher ”). A multiple test correction was performed with the following command: fullResults$p.adj <- p.adjust(as.numeric(fullResults$weightFisher), method = “fdr”). The background gene universe included all genes with a GO term from either EH23a or EH23b.   We collected flower and leaf tissue from four Ace High plants, two male and two female, at the same developmental time point, at 08:00 and 20:00, for a total of 16 samples. Since Ace High males flower several weeks before female plants under normal outdoor conditions, plants were germinated and grown under long days and transferred to inductive short-day conditions for flowering, which resulted in both male and female plants developing flowers at the same time. Samples were collected at two times of day to capture all transcripts regardless of their circadian or diurnal expression74. RNA was extracted with the Qiagen Plant RNA kit. Library prep was performed with the Oxford Nanopore Technologies (ONT) full-length cDNA kit. We aligned full-length cDNA to the haplotype-resolved Ace High (AH3Ma/b) genomes with minimap2 (v2.24)75 and gene expression was measured using Salmon v1.6.068. Sex-biased expression was assigned for all tissue-specific male and female samples (leaf and flower from two male plants (plants A and B, collected at 08:00 and 20:00) and two female plants (plants C and D, collected at 08:00 and 20:00)). Each sex-specific tissue had four replicates (for example, gene expression measurements from male flowers sampled from two male plants at two different time points were averaged). Two categories of biased expression were defined: first, average expression that was higher (at least 5.0 TPM greater) in male or female samples, relative to the other sex; and second, male or female-only expression, where genes were not expressed in one sex (0.0 TPM for all replicates), but had an average of at least 1.0 TPM expression in the other sex. For GO term analysis with topGO73, both categories of biased gene expression were combined. Fully syntenic genes were identified in the set of four genomes with X and Y chromosomes (AH3Ma/b, BCMa/b, GRMa/b and KOMPa/b) using genespace, and were grouped according to location in the PAR, SDR or X-specific region.   For the Dovetail Omni-C library, chromatin was fixed in place with formaldehyde in the nucleus and then extracted. Fixed chromatin was digested with DNAse I, chromatin ends were repaired and ligated to a biotinylated bridge adapter followed by proximity ligation of adapter containing ends. After proximity ligation, crosslinks were reversed and the DNA purified. Purified DNA was treated to remove biotin that was not internal to ligated fragments. Sequencing libraries were generated using NEBNext Ultra enzymes and Illumina-compatible adapters. Biotin-containing fragments were isolated using streptavidin beads before PCR enrichment of each library. The library was sequenced on an Illumina HiSeqX platform to produce ~30× sequence coverage. Then HiRise used (see read-pair above) MQ > 50 reads for scaffolding. Additional Hi-C libraries were generated using Phase Genomics Proximo Hi-C Kit (Plant) version 4.   All samples were sequenced on a PacBio Sequel II. For samples sourced from ‘Michael’ (Supplementary Table 1), HMW DNA was isolated using Carlson Lysis buffer and Qiagen Genomic tips as described in the ONT Protocol ‘Plant leaf gDNA’ Arabidopsis method. The DNA was further size-selected for fragments longer than 10–25 kb using the ONT Short Fragment Eliminator Kit (EXP-SFE001). HMW DNA was then confirmed by Tapestation Genomic DNA ScreenTape (Agilent 5067-5365) or Femto Pulse Genomic DNA 165 kb Kit (Agilent FP-1002-0275). For samples sourced from ‘OCBD’ (Supplementary Table 1), HMW DNA was isolated using a modified protocol76. In brief, samples were ground in a mortar and pestle with liquid nitrogen, two chloroform:isoamyl wash cycles were performed, and Total Pure NGS beads (Omega Biotek) were used as a substitute from the original protocol. Genomic DNA (gDNA) quality and purity was then assessed using a NanoDrop One (ThermoFisher) prior to starting library preparation. Continuous long read (CLR) libraries were made using the Pacbio protocol PN 101-693-800 V1. Size selections on gDNA were made using the Blue Pippin U1 High Pass 30–40 kb cassette with a 30–40 kb base pair starting threshold to produce fragment distributions of 60–90 kb. HiFi circular consensus sequencing (CCS) libraries were prepared according to the PacBio protocol (PN 101-853-100 V5). Sheared gDNA fragment distributions with a modal peak ~18 kb were produced using g-Tubes from Covaris and Blue Pippin S1 High Pass 6–10 kb cassettes to remove everything under 10 kb in size.   All genomes labelled Hifiasm_HiC, Hifiasm_Trio_RagTag, Hifiasm_RagTag, and Hifiasm (Supplementary Table 1) were assembled using Hifiasm v0.16.159. When available, Hi-C data and HiFi parental trio data were also incorporated into the assembly process defining the Hifiasm_HiC and Hifiasm_Trio_RagTag types respectively. CLR assemblies were generated using FALCON Unzip from PacBio SMRT Tools 9.0 Suite77 and CCS labelled genomes were assembled with HiCanu v2.278. After assembly, Hi-C reads were aligned to the Hifiasm_HiC contigs using the Juicer v1.6.2 pipeline60 followed by ordering and orientation utilizing version 180922 of the 3D-DNA pipeline61. The scaffolded assemblies were then manually corrected using Juicebox v1.11.0862. Hifiasm_RagTag and Hifiasm_Trio_RagTag assemblies were scaffolded using the split chromosomes of the 24 Hi-C scaffolded genomes and error checked with yak-0.1 (github.com/lh3/yak). Sourmash v4.6.179 was used to generate a Jaccard similarity matrix between the chromosomes and each un-scaffolded assembly, and the most similar version of chromosome 1 through X was concatenated to generate a reference for scaffolding via RagTag v2.1.080. If the similarity matrix identified the Y chromosome as the best match, the assembly remained un-scaffolded. BUSCO v5.4.379 with the eudicots_odb10 dataset and assembly-stats v1.0.1 (https://github.com/sanger-pathogens/assembly-stats) were used on all assemblies to measure completeness and contiguity.   The graph pangenome of all 78 scaffolded and softmasked assemblies was generated with Minigraph-Cactus20. We used the cactus-pangenome command within an Apptainer (v1.1.8) Image81 (https://quay.io/comparative-genomics-toolkit/cactus:v2.6.7-gpu) and the following parameter flags: --reference EH23a EH23b --vcf --vcfReference EH23a EH23b --giraffe --chrom-og --chrom-vg --viz --gfa --gbz. The seqFile input as well as the output graph in various formats (vg, paf, hal, etc.) can be found at https://resources.michael.salk.edu. We also compiled variants across the pangenome in terms of each assembly’s coordinates by using vg deconstruct -a -C (vg tools v1.61.0 “Plodio”) to derive vcf files from the Minigraph-Cactus gfa output and then using vcfbub --max-ref-length 100000 --max-level 0 to flatten nested variants and remove those >长度为100 kb(请参阅78CSATHAPS_MINIGRAPHCACTUS_.vcf.gz)20,82,83 。   我们生成了每个PGGB图的两个版本 ,一个带有“汇编文件 ”表中提供的FASTA文件以及https://resources.michael.salk.edu(混合 - 定向)的JBROWSE实例中提供的,一个序列始终是始终如一地匹配了chromosos of-offermos offermos offy-off的collomosos eh 233333.   For PGGB graph 16csatAsms, we generated one graph per autosomal chromosome from the following 16 scaffolded and softmasked assemblies: AH3Ma, AH3Mb, BCMa, BCMb, EH23a, EH23b, GRMa, GRMb, KCDv1a, KCDv1b, KOMPa, KOMPb, MM3v1a, SAN2a, SAN2b andYMV2A。我们生成了每个染色体的一个组合FASTA文件作为PGGB的输入(请参见16csatasms_chr [1-9] _combined.fa.gz和16csatasms_chr [1-9] -oorient_combined.fa.gz.fa.gz,分别是一致的和混合的fast-fasta fasta fastA Inputs。由于分析了此大小和重复含量的基因组的计算要求 ,我们在所有组合中构建了每个染色体图 ,而不是一个组合的单个图(扩展数据图6) 。   对于PGGB图13CSATSEXCHROMS,13个脚手架和软卸载的性别染色体序列AH3MA.CHRX,AH3MB.CHRY ,BCMA.CHRX,BCMB.CHRY,EH23A.CHRXKOMPa.chrX, KOMPb.chrY, SAN2a.chrX and SAN2b.chrX were combined into one fasta file (see 13csatSexChromsCombined_filtOrientation.fa.gz and 13csatSexChromsCombined_origOrientation.fa.gz for the consistent- and mixed-orientation fasta inputs, respectively, athttps://resources.michael.salk.edu)。   NextFlow v24.3.591684用于运行NF -Core/Pangenome v1.1.2 -Canguro Deployment 85,86 pggb22在NextFlow Singularity配置文件中。所有默认的PGGB设置均用于图形生成 。对于PGGB图13CSATSEXCROMS ,使用标志-vcf_spec相对于每个组件的坐标来编译pangenome的序列变化,并使用VCFBUB进一步处理每个VCF的VCFBUB -max-ref-ref-ref-Rength 100000 -max-max-Level 0-最大级别-max-level 0,以扁平化的巢式变种 ,并删除这些> 100 kb的长度20(请参阅execy> 100 knement20(请参阅20(请参阅)(参见execy20)13CSATSEXCHROMS_PGGB-FORIENT_.vcfbub.vcf.gz和13csatsexchroms_pggb-oorient_.vcfbub.vcf.gz文件,分别是从https://resources.michael.salk.edu生成的图形生成的图形 。对于PGGB图16CSATASM,PGGB在没有标志-VCF_SPEC的情况下运行 ,而VG解构-A则用于编译pangenome从最终的GFA文件中跨pangenome的序列变化,用于每个常染色体染色体的最终GFA文件(VG工具VG Tools v1.61.0“ Plodio”)82,83)82,83。使用bcftools65将每个vcf文件串联到每个组件的单个文件中,然后使用vcfbub处理-max-ref-length 100000 -max-max-level 0 ,以扁平嵌套变体 ,并在长度中删除> 100 kb(请参阅16csatasms_pggbbybbychrom_.vcf.gz和16csatasms_pggbbyoriginalchrom_.vcf.gz用于来自具有一致和混合取向输入fastas的图表的VCF,在resources.michael.salk.edu上。每对具有一致和混合取向输入生成的图形,使用了相同的参数 。   图形pangenomes的可视化是从PGGB管道的Final_gfa文件中生成的 ,该文件在一致的方向输入FASTAS上运行。VG文件是使用VG Convert82,83从GFA文件中得出的。然后,使用prepard_vg.sh和preeg_chunks.sh在序列管映射服务器的本地实例(https://github.com/vgteam/sepotecetubemap.git)中,可视化感兴趣区域的pangenome变化 ,于2024年9月4日克隆) 。   Short-read sequences from the EH23 F2 population and Ren et al.2 were aligned to the pangenome graph with vg giraffe (example command: vg giraffe -Z {input.inputGBZ} -d {input.inputDist} -m {input.inputMin} -f {input.inputR1} -f {input.inputR2} -t{threads}> {output.outputfile})87。使用VG Stats82收集摘要统计信息(示例命令:VG Stats -A {input.inputgam} {input.inputgbz}> {output.out.outputfile})。使用VG Pack82(示例命令:VG Pack -X {input.inputgbz} -G {input.inputgam} -Q 5 -T -T {threads} -o {output.out.outputfile})计算GAM文件的读取支持 。使用VG CALL88调用F2映射总体的变体(示例命令:VG呼叫-GBZ {input.inputgbz} -K {input.inputpack} -s EH23B -T -t {threads}> {treends}> {output.out.outputfile})。Downstream processing of VCF files was performed with BCFtools65 (example commands: (1) bcftools view -a -f PASS merged.sorted.vcf.gz > merged.sorted.a.PASS.vcf.gz; (2) bcftools norm --fasta-ref EH23b.softmasked.fasta -m -any合并。合并 。Filtering of the pangenome graph-based VCF file to compare with the linear reference-based VCF file was performed with VCFtools66 (example command: vcftools --remove-indels --minGQ 20 --maf 0.25 --max-missing 0.3 --min-alleles 2 --max-alleles 2 --stdout --recode --gzvcf合并。   上述图形pangenomes的输入和输出文件(由Minigraph-Cactus生成的78csathaps,PGGB生成的16csatasms和13csatsexchroms)可在https://resources.michael.salk.salk.edu上找到。VCF文件已被添加为大麻基因组JBROWSE实例的轨道,网址为https://resources.michael.salk.edu 。   从大麻测序样品产生的原始ONT FAST5文件中的基因组读数用于甲基化调用 。为同一个体生成的基因组组件被用作对齐的参考。使用POD5软件包(https://github.com/nanaporetech/pod5-file-format)将FAST5数据转换为POD5格式。使用Ont Base-Calling软件Dorado版本0.3.4(https://github.com/nanaporetech/dorado/)进行甲基化调用 。Dorado使用RAW POD5数据和参考来鉴定甲基化的胞嘧啶。根据每条线的测序条件 ,使用对R9.4.4.1或R10.4.1的孔类型和400 bps易位速度训练的超精度(SUP)基本调价模型执行。从每个样品中生成的组装基因组用作参考,以生成带有5MC和5HMC甲基化调用的MM/ML标签的对准​​BAM文件 。然后将它们用ModKit(https://github.com/nanoporetech/modkit)堆积,并使用堆积的调用(用5HMC汇总5MC)来计算所有CG站点的全基因组甲基化频率。   基因模型预测涉及多步管道 ,并应用于所有组件。   使用GGPLOT2 [https://ggplot2.tidyverse.org]在R(www.r-project.org)中创建了78个染色体,基于单倍型基因组的染色体的意识形态图(图1和扩展数据图5) 。使用“ nuccomp.py”(https://github.com/knausb/nuccomp)确定每个染色体的长度,并与ggplot :: geom_rect()一起使用以初始化绘图。为每个染色体创建了100万个基对窗口 ,其中使用程序Motif_Counter.py(https://github.com/knausb/nuccompp)计数每个窗口的CPG数量数量。通过除以窗口大小 ,将CPG计数转换为速率;这也容纳了每个染色体的最后一个窗口,该染色体的大小少于一百万 。通过减去最低率,然后按每个染色体基础 ,将这些速率缩放。为了在视觉上强调CPG基序在中心区域中的富集,通过服用并减去每个窗口的CPG速率,取出CPG速率的倒数。使用Viridis Magma Palette(https://doi.org/10.5281/zenodo.4679424) ,使用了每个MBP窗口的宽度,并根据基因密度进行颜色,将此缩放的逆CPG速率用于每个MBP窗口的宽度 。   使用MiniMAP275比对确定每对染色体之间的结构变化 。使用SYRI98对MiniMAP2比较进行了注释。使用ggplot2 :: geom_polygon()以plotsr99启发但在r(github.com/vininglab/cannabispangenome)中实现的方式绘制了同步和倒置区域。   使用BlastN100确定了EH23单倍型A和B中候选基因座的位置 。查询序列如下:CBCA合酶(LY658671.1) ,CBDA合酶(AB292682,AB292683,AB292684) ,THCA合酶(AB212829,AB212830)和橄榄油酸环酶环酶环酶环酶环酶环酶环酶环酶环酶环(AB212829)(AB212829)(AB212829)(NC_044376.1:C4279947-4279296,NC_0444376.1:C4272107-4271242)。这些序列与File Blastn_queries_rrna_cann.fasta(https://github.com/vininglab/vininglab/cannabispangenome)中的File bastn_queries_rrna_cann.fasta中的centromeric ,端粒和rRNA序列结合使用。将BLASTN与以下选项进行了调用:-task Megablast -evalue 0.001 -Perc_Identity 90 -QCOV_HSP_PERC 90 。从BLASTN的表格结果(主题染色体 ,对象的启动,对齐的主题开始,对齐的主题结束) ,并读取为r中,并在GGPLOT2 :: GEOM_ERECT()()()()()(https://ggplot2.tidyverse.org)。   ONT和PACBIO的基于长读取的基因组组件使一些高度重复的centromeres和端粒序列可以组装。通过使用修改的设置(1 1 2 80 5 2002000 -D -H)102搜索基因组(TRF; v4.09),通过搜索基因组(TRF; V4.09)来识别中心粒 。根据我们以前的方法识别Centromeres101的方法 ,对串联重复进行了重新格式化,求和和绘制,以找到最高的拷贝数串联重复(图5C)。   使用两种不同的方法估算端粒。首先 ,请查询TRF输出的重复序列,为14个不同版本的范围端粒基础重复重复重复:AAACCCT,AACCCTA ,AACCCTA,ACCCTAA,CCCTAAA ,CCTAAAC ,CTAAAAC,CTAAAACC,TAAACCC ,TAAACCC,TAAACCC,TTTAGGG ,TTTAGGG,TTAGGGT,TTAGGGT ,TAGGGGT,GGGTT,GGGTT ,GGGTTT,GGGTTTTA,GGGTTTTA ,GGGTTTTA ,,GGGTTT,GGGTTTTA ,,GGGTTT, ,GGGTTT,,GGGTTTTA ,gtttagg :( grep -a'ofereSize = 7' *.genome.fasta.fasta.1.2.80.5.200.200.2000.dat.dat.gff | grep -a‘共识= aaaccct |共识= aacccta |共识= accctaa |共识= ccctaaa |共识= cctaaac | cctaaac |共识= ctaaaacc | comSensus = taaaccc|共识= tttaggg |共识= ttagggt |共识= tagggtt |共识= agggttt |共识= gggttta |共识= ggtttag | ggtttag | comSensus = gttttagg’- ) 。其次,我们使用Telonum算法103搜索了RAW ONT和PACBIO读取端粒序列。尽管在整个pangenome组件上的结果是可变的,但通常在染色体的末端发现端粒序列 ,PACBIO组件的平均长度为16 kb,而ONT组件的平均长度为60 kb。ONT和PACBIO端粒长度之间的差异很可能反映了读取长度> 100 kb和15–20 kb 。对原始读取的Telonum分析支持来自组件的分布,这与大多数具有端粒序列的染色体一致 ,同时比实际尺寸短 。大麻端粒的较长侧是Eudicot的较长侧 ,可以用其主要的克隆传播来解释药用用途104。   基于以下假设鉴定了中心序列序列,即基因组中它将是最丰富的重复,该重复也具有更高的重复(HOR)结构101,105。在PACBIO HIFIASM组件中鉴定了两个不同的HOR重复序列 ,而在ONT组件和先前的CBDRX组件中仅发现了一个基于ONT序列11的CBDRX组件 。最高的拷贝数重复是370 bp,在740和1,110 bp的HOR中有20–30 MB(占总基因组的2–4%)之间的变化(扩展数据图5)。第二高,也是在ONT组件中发现的唯一的是237 bp的重复 ,在3-5 MB之间变化(占总基因组的0.4–1.0%),HOR为474和711 bp(扩展数据图5)。对染色体分辨的基因组的370 bp重复的映射表明,该重复主要位于端粒序列旁边的染色体末端 ,这表明它可能与CS-1亚telomeric repot106有关 。假定的370 bp centromeric重复和CS-1亚层次重复的比较表明它们是相同的重复元件。相比之下,推定的237 bp centromeric重复主要是在CHR上发现的。6和chr 。8在预测的中心粒区域(图1A和扩展数据图5)。但是,在预测的丝粒区域的所有染色体上都发现了较小的237 bp阵列(基于CPG ,甲基化,基因含量和TES),大多数组件在ChR上具有小阵列。6和chr 。8。   在CBDRX/CS10组装中鉴定了核糖体DNA(RDNA)45S(18s ,5.8s和26s)和5S序列(LOC115701787 5.8S ,LOC115701759 18S,LOC115701762 26S和LOC115721558 5S,并爆炸了PANG and Assist offers and pands Assist and Assist and Ad Indress Anderbore and Pangeore and Pang and pand pand pand pand pangeome and pand pangeorme图5)。在脚手架基因组中 ,45S阵列主要位于Chr的杂技端 。8,5S仅位于Chr 。7在大麻素合酶盒阵列之间,与已发表的原位杂交结果一致。但是 ,在所有染色体上的某些组件中发现了部分阵列(扩展数据图5)。部分阵列在不同染色体上的分布可以反映整个基因组的变异性,因为一些跨组件之间的位置相似 。大多数阵列都在未造成的重叠群上发现,这表明这些变量阵列跨不同染色体可能是错误组件的结果。通常 ,大麻基因组中平均有1,000个45和2,000个5s阵列。一些组件的5s阵列完全组装在CHR上 。7。   使用VCFR108输入VCF格式中的基因型数据。等位基因和杂合计数是用VCFR进行的 。计算了赖特的FIS109,以提供杂合性偏离我们随机的Hardy -Weinberg,期望。Wright的FIS被计算为(HS -HO)/HS ,其中HO是观察到的杂合子数量除以其数量和HS的数量是我们期望的杂合子的数量,我们根据等位基因频率的杂合子数量,计算为第一个等位基因的频率 ,是第一个等位基因的频率 ,由第二个等位基因的频率乘以两者的频率,又是二重数字且数字。使用GGPLOT2生成散点图 。使用GGPUBR(https://cran.r-project.org/package=ggpubr)将图形面板组装成单个图形。   使用Pankmer,我们使用默认参数的“ Pankmer索引 ”命令构建了两个31-MER索引:193个大麻组件的“完整”索引和一个78个脚手架组件的“全脚手架”索引。我们使用“ pankmer adj-matrix ”计算了所有组件中所有组件的成对jaccard相似性 ,然后是“ pankmer clustermap-metric jaccard” 。我们使用默认参数的“ pankmer collect”命令计算并绘制了全部和脚手架索引的收集器曲线 。所有用于此分析的脚本都可以在GitHub上找到。   我们将基于基因的pangenome定义为所有基因家族(正式)的集合,并具有至少一个pangenome基因组的代表。对于193个(以及78个染色体级别的基于单倍型基因组,作为单独的集合)C 。sativa基因组 ,每个高信心基因预测的主要转录本都是代表性的。使用正面剂将与每个主要转录物相对应的蛋白聚集到正群中(v.2.5.4,请参见下面的正面和同义分析部分)90。将一组主要成绩单CD合并到一个FASTA文件中,并使用Seqkit(2.7.0)110删除精确的重复 。在主要转录本中 ,可能通过鉴定在重叠群上预测的转录本来确定可能的污染物,这些转录物被注释为“ viridiplantae ”或“真核生物”,根据蛋酒录像带(v2.1.1.12)95 ,并被删除。为了减轻未注释基因的问题,我们使用miniMAP2(v2.26)75(v2.26)75将所有主要转录本的编码序列与193(78)大麻基因组中的每个分配对齐,并带有“ minimap2 -c -x -xplice”参数 ,以生成每个基因组的雪茄串的PAF文件。对于每个基因组 ,如果对齐的CD序列的映射质量至少为60个,则具有许多雪茄匹配的查询长度的80%,并且没有重叠直接注释的基因 ,则认为它被认为是未经宣传的基因,其正凝结被标记为目标基因组中 。在所有193(78)个基因组中至少存在一种代表性的正群被认为是核心基因组,其余正群被认为是可变基因组。每个基因组中每个正群的存在或不存在记录在表中(请参见数据可用性)。该分析的所有脚本均可从GitHub获得 。   在pangenomics中 ,收集器的曲线(pangenome稀疏)显示了单倍型的数量(此处为H)与基因家族或正群的数量(此处x)。   考虑到分布在H单倍型之间的X正g,让正群X的得分SX [0,H]为存在X的单倍型数。对于任何分数 ,让P(s)是得分等于s的正群数 。   其中is_x:{x0…xx}→{0,1}是{x x0…xx:sx = s}上的指示函数 。   收集器的曲线c(h):[1,h]→[0,x]是从H总组中随机绘制的H haplotypes中将存在的预期正群数。   可以通过   这些都是基于超几何生存函数的预期数量至少为n的预期正群数的常规公式的特殊情况:   其中SHYP是超几何生存函数或从1:从1:   为了清楚起见 ,超几何概率质量函数(PMF)为:   用二项式系数定义为:   而且,从传统上讲,累积分布函数(CDFHYP)为:   如此定义 ,我们可以看到 ,泛基因组收集器的曲线C(H)等于C1(H),而核心基因组收集器的曲线相当于CH(H):   收集器曲线的定义对基因组序列的单位不可知,因此基于K-MER的曲线的计算与基于Orthroproup的曲线相同 ,只是X将是K-MER的数量,而X的数量将代表K-MER,而不是Orthroproup。   TRIM_GALORE用于修剪Ren等人的简短读取序列 。还分析了所有pangenome组件的31 -mer频率(Sourmash Sketch DNA -P缩放= 1000 ,k = 31)。最后,比较了Illumina读取和pangenome组件的所有成对样品(Sourmash比较-p 64 *.sig -k -k 31)。然后使用(hClust(sourmash_comp_matrix),方法=“平均 ”)将31-mer距离绘制在R中 。   我们基于Orthropoup成员资格(https://github.com/padgittl/cannabispangenomeanalyalyses/tree/main/main/main/main/main/coredispensablegenes) ,分配了核心和可分配(几乎核,云,外壳 ,私有)基因。核心基因被定义为存在于100%的基因组(193个基因组)中,几乎核基因被定义为存在于95-99%的基因组(183-192基因组)中,在5-94%的基因组中发现了壳基因 ,在2-182个基因中发现了基因组(10-182个基因) ,基因在基因组中(3-9%)(3-9)(3-9)(3-9)(3-9)0.5–1%的基因组(1-2个基因组)111。该分析是对所有193个基因组进行的(图1E),并根据种群进行了可视化(补充图5) 。对于重叠级级组件(103个基因组),仅包括与EH23A的十个染色体相似的重叠群。将基因组过滤以仅包括存在于十个染色体上的基因和与染色体同源的重叠群。我们对每个基因组的每个核心 ,壳,云,近核和独特的基因组进行了用TopGo73的功能富集分析 ,其中背景基因集都是给定基因组的GO术语的所有基因 。Among the core genes, the most common significant GO term in the pangenome was sesquiterpene biosynthetic process (GO:0051762), which was significant in all but one genome (PBBK), followed by GO:0045338 farnesyl diphosphate metabolic process, which was absent in three genomes (public genomes: CANN, FIN and PBBK) (Supplementary Table 4).该分析仅限于TSEBRA管道预测的高信任基因模型。相比之下,基因含量的收集器曲线分析还包括缺乏基因模型预测的未注释的基因组区域,但与已知基因相似 ,作为捕获未采样多样性的一种方式(图1C,D和补充图4;另请参见“基因基因组的分析 ”)。   使用公式t =(1-身份)/2µ计算所示差异时间的估计值(图2B,C) ,其中从EDTA输出GFF3文件中获得了身份,以前所述的97 。我们使用拟南芥112,113的替代率(µ)为6.1×10-9 。该分析是对所有基因组进行的。   为了鉴定独奏LTR和完整的LTR-RT,我们在193大麻基因组上使用了EDTA管道97。我们首先收集未分配为完整的LTR-RTS的LTR的集合来识别SOLO LTR ,这些LTR是根据teanno.gff3文件的属性列中“方法=同源”检索的 。我们应用阈值以将ltrs和完整的LTR和LTR-RTS的内部序列分离为单位LTR。这些阈值包括100 bp的最小序列长度 ,相对于参考LTR的0.8个身份和300的最小比对得分114。我们还要求四个相邻的LTR-RT注释没有相同的LTR-RT ID115 。此外,我们需要至最近相邻的独奏LTR,完整的LTR或内部序列116的最小距离为5,000 bp。最后 ,我们保持了LTR长度117的第95个百分位数的独奏序列。总体而言,此方法代表了基于LTR_RETRIEVER114的Solo_finder.pl脚本和LTR_Miner Script116的修改方法,并在ltr_retriever的GitHub页面(https://github.com/ousthujun/ltr_retriever/issues/41)的指导下进行了指导 。   作为Plantenrichment118的一部分提出的方法是针对大麻pangenome的 ,以评估不同基因组特征(包括大麻素合酶基因)上游和下游的富集。分析的目的是确定与特定类别基因组特征显着相关的TE。简而言之,“ X”代表特定类型的TE和“ Y ”涵盖所有TE 。位于特定基因组特征(例如大麻素合酶)上游或下游的X的总数表示为A;所有基因组特征(例如,所有基因)的位于上游或下游的X的总数is b;特定基因组特征(大麻素合酶)上游或下游的Y总数为C;所有基因组特征(所有基因)的上游或下游的Y总数均为d。富集分数(ES)定义为 ,p值定义为,其中n是a,b ,c和d的总和。使用Python库StatsModels120对P值进行了多个测试校正119 。显着性阈值截止包括错误的发现率(FDR)< 0.05 and ES ≥ 2. We used bedtools intersect121 to collect and survey the set of TEs located 1 kb upstream or downstream of the genomic feature category of interest. An example command: bedtools intersect -a assemblyID_genomic_feature_coord_file.txt -b assemblyID.TE.gff3 -wo > assemblyId_intersect_Results.txt 。   The median and mean distances between genes and each of the TE categories was calculated using bedtools sort (bedtools sort -i genome.TEs.bed > genome.sorted.TEs.bed) and bedops closest-features (command: closest-features --closest --header --dist genome.sorted.genes.bed genome.sorted.TEs.bed >genome.closest_features.bed)122。为了获得基因的初始预分级床文件,使用了以下命令:cat genes.gff3 |GREP mRNA |grep‘.chr’|awk‘{打印$ 1“” $ 4“” $ 5“ ” $ 7“” $ 3“” $ 9}'> genome.genes.bed。对于TES,使用了以下命令:CAT Genome.edta.teanno.gff3 |grep‘.chr’|awk‘{打印$ 1“ ” $ 4“” $ 5“” $ 7“ ” $ 3“” $ 9}'> genome.tes.bed 。为了计算平均值和中值值 ,使用了内置的Python统计模块。   我们进行了GO术语富集分析 ,以识别统计学上显着位置在整个pangenome上不同类型的TE附近的基因。为了识别TE附近的基因,我们首先创建了一个带有基因和TE坐标的串联,分类的床文件 ,以找到给定基因最近的TE,同时不包括最接近给定基因的基因组特征是另一个基因的情况 。对于脚手架的基因组,基因和TE被限于十个染色体。对于重叠群的组件 ,如果基因与十个EH23A染色体之一相似,则包括基因。接下来,我们使用最接近Features的床单鉴定了基因/TE对122 。我们使用带有参数算法的TOPGO分别为每个基因组进行了GO富集测试< 0.0573. The background gene universe for statistical comparison was the set of all genes with a GO term for a given genome. To assess broad patterns, only GO terms that were significant in at least five genomes were considered further. This analysis included the full set of genomes (Supplementary Table 11).   The genomic coordinates for the 2 kb flanking distance surrounding copies of CBCAS, CBDAS and THCAS for the 78 scaffolded assemblies were retrieved with bedtools flank (bedtools flank -i assemblyID_synthase_coords.bed -g chromSizes.txt -l 2000 -r 2000 > assemblyId_flanking_2000.bed)。接下来 ,使用BedTools Intersect(bedTools Intersect -a assemblyId_flanking_2000.bed -b assemblyId.edta.edta.teanno.gff3 -wo> souseblyblyd_intersect_2000.bed),使用BedTools Intersect检索了该侧翼区域中的TE。在FASTA文件中收集了用床托相交的每种TE类型的基因组序列,并与mafft(mafft -auto helitron.fasta> helitron_aln.fasta)对齐107 。用FastTree(FastTree -gtr -Gtr -Gtr -Gmma helitron_aln.fasta> Helitron_aln.tree)构建了最大样树。用figtree124可视化树。为了降低整个LTR中的冗余 ,将CD -HIT应用于一组序列,然后在多个序列对齐之前(CD -HIT -EST -IT -i ty1_ltrs.fasta -o ty1_ltrs.cdhit.fasta -c 1)125 。   提供了来自EDTA的非冗余TE序列库,作为鲑鱼的“转录组” 。EH23 RNA-SEQ样品中的每个样品均映射到TE转录组。与基因表达分析相似 ,在≥20%的样品中 ,给定TE的最小TPM阈值为≥0.1tpm126。前50个表达的TE可视化为热图,显示Log2TPM表示对数折叠的变化 。   “ CpG岛 ”定义为未甲基化区域,跨度> 200 bp ,GC含量> 50%,观察到/预期的CpG比率> 0.6。随着时间的推移,胞嘧啶甲基化会导致胞嘧啶脱氧于胸腺氨酸后CPG二核苷酸的损失。随着胞嘧啶甲基化 ,期望是CpG二核苷酸(CG,CHG,CHH(其中H为A ,T或C))将具有更大的甲基化活性 。观察到的/预期的CpG比率计算127,128为:。观察到的/预期的CpG模式在图2H,k中可视化。   对于每个SV亚型(反转(Invs),重复(DUP) ,易位(trans)和反转易位(INVTR)),使用完整的和碎片的发出术都调查了每个断点的侧面500 bp区域500 bp的上游和下游(每个断点总计1 kb总计)的TE含量 。包括78个脚手架,染色体水平的基因组 ,由人群分组。为了与大基因组进行比较 ,从相同的基因组和染色体中检索一个随机窗口,其长度与每个带床托的SVS相同,并在每个模拟断裂点中检索了侧翼窗户。只有与单个SV的两种断点相关的特定类型TE的情况仅通过BedTools相交进一步评估 。该分析中包括碎片和完整的TE。使用韦尔奇在SCIPY71中的两侧t检验评估统计显着性。TE发生在SV断点(断点的上游和下游500 bp;总计1 kb)附近 ,比从同一染色体和基因组的随机选择的区域中发生的 。为了克服丰度的差异,基因组的随机洗牌区域进行了自举(1,000个重复),要求每个模拟 ,改组的TE数据集与人群中观察到的断点的数量相匹配 。通过在SCIPY71和Benjamini-Hochberg多重测试校正(Alpha = 0.5,Method ='Indep',IS_Sorted = false)中 ,评估了观察到的数据和模拟数据的统计显着性的统计显着性。为1,000个bootstrap重复中的每一个生成了测试统计量和P值。然后计算平均测试统计量和P值(补充表13) 。   我们运行了Orthofinder 2.5.4版,以帮助分析193次大麻抗议活动。两次跑步完成。第一个专注于我们最高质量的Canabis组件组件,仅包括脚手架组件 ,Asmmblies Aong和其他数十种来自Plaza的植物和NCBI的一些样品 。还生产了另一项运行,包括我们所有的Canabis Pangenome组件,以及来自广场的密切相对来源 ,以允许对其余组件进行详细的蛋白质水平分析。在所有情况下 ,仅使用主要的(除非另有说明)蛋白序列(除非另有说明)。使用各种方法分析了矫形器结果,包括Orthobrowser129,该方法能够产生静态网页 ,从而可以同时可视化基因传统树状图,基因树多序列对齐,以及Sepredeptions基因和周围基因的同步 ,并同时可视化 。 (https://resources.michael.salk.edu/root/home.html)。   脚手架的Cananbis Orthofinder Runder中包含的非大道基因组:(1)Amborrella trichopoda; (2)含氧甲状腺酸盐; (3)A。Thaliana; (4)C 。sativa; (5)Cartinus Moon; (6)伊利诺伊州的Crya; (7)certophyllum demersum; (8)citrullus lanatus; (9)Crylus avellana; (10)Cucumis melo; (11)Cucumis saativus; (12)Fragaria Vesca; (13)Fragaria X; (14)Lotus Japon; (15)镁质结合; (16)马拉斯家族; (17)Maniot Esculenta; (18)M。Notobilis; (19)Nelumbo努力了; (20)Oryza sativa; (21)Parasponia Andersoni; (22)P。Persica; (23)Lobata Quercus; (24)罗莎中文; (25)sechium edule; (26)T 。Orientale; (27)Trochodenndron Aralioides; (28)疫苗摩克罗彭; (29)v 。Vinifer; (30)z。jujuba; (31)h。lupulus 。   整个大麻矫形器运行中包括非大道基因组:(1)F。Vesca;(2)Japonicus;(3)M. forefla;(4)P。Persica;(5)Chinensis 。   我们计算了193个基因组上蛋白质和基于DNA的正群的序列熵。高熵对应于正晶中序列之间的更多多样性和变化,低熵表明矫正器序列之间的多样性和相似性较小。最小熵值0对应于匹配的身份 。最大熵对应于氨基酸的随机序列,并从方程式得出:log2(20)= 4.32 ,其中20是氨基酸的数量。对于DNA,最大熵130为log2(4)= 2.0。我们使用scipy.stats71的熵函数计算了Orthofinder多个序列对齐的每一列的熵,然后计算了整个多序列比对的平均熵 。在分析中包含每个正脉中至少需要五个序列。对每个人群的每个正群进行成对比较 ,并将每个多个序列比对的熵值分布可视化为关节直方图。该分析应用于蛋白质(基因序列)和DNA(TES) 。   为了在单倍型分辨,具有X和Y染色体(AH3M,BCM ,GRM和KOMP)的单倍型分辨 ,染色体尺度基因组中进行视觉评估,我们在R版本4.2.2(20222-10-31)中使用了Genespace版本0.9.3131 。我们最初在Genespace环境之外运行了Orthofinder90,并进口了结果。为了运行分析 ,我们使用了同步函数,然后使用plot_riparianhits。我们用pangenome函数构建了pangenome表示 。我们将输出文件gffwithogs.txt用作用于在子集中所有基因组中获得同步基因对的主要文件。在“ OG ”列(最后一列)中具有相同整数值的基因ID被作为同步直系同源物检索。   使用MiniMAP275将78个完全脚手架的组装单倍型对齐与EH23A组件对齐 。然后使用Syri在每个Alignment98上调用SVS,并使用图形可视化对齐和SVS99。使用BedTools Intersect121分析CD和TE含量。使用最小尺寸为10 kb的反转的BLASTN比对调用反转断点重复 。8 kb的窗户以每个反转的开始和结束断点为中心 ,并且是自我对齐的,以及反转的对方侧的断点窗口对(开始到结尾)。每个断点仅计数最高得分对准(不包括全长自我对齐)。倒重复序列被称为相反方向的比对,并要求分段重复以相同的方向对齐 。   在相同的组件和对齐方式上 ,使用SYRI98也称为SNP,如上所述。每个样品中每个样品中每个单倍型中的每个单倍型中的SNP都合并为每个样品单个基因型调用,并删除了带有n个n作为n的位点(github.com/rclynch414/syri_vcf.sh)。最后 ,VCFTools用于质量过滤和薄的SNP位点至少为1000 bp的间距: - 示波器 - indels-mingq 20-remove-remove-indv eh23a-min-learteres 2 -max-learteres 2 -m-max-learteres 2-thin 1000-thin 1000 -Stdout -stdout-recode 。   Phased SNPs from the scaffolded assemblies were first assessed for r2 correlations in with bin using plink133: --double-id --allow-extra-chr --set-missing-var-ids @:# --maf 0.01 --geno 0.1 --mind 0.5 --chr 7 --thin 0.1 -r2 gz --ld-window 100 --ld-window-kb 1000 --ld-window-r2 0- 床单 。然后使用ld_decay.py制作衰减曲线(github -erikrfunk/genomics_tools),这些曲线用ggplot绘制在R中。使用vcftools进行分别LD热图:-thin 50000 -thin 50000 -recode -recode;并在r(sfustatgen.github.io/ldheatmap/)中使用ldheatmap绘制。   使用EH23A的所有高信心基因注释作为无效分布和显着性的经典Fisher测试73,使用R的Topgo包装进行了GO术语富集测试 。   使用每个分阶段SNP的VCFTools和脚手架组件MJ和大麻种群分配计算FST值;使用这些值的前5%计算显着性。选择性扫描的XP-CLR模型应用于同一SNP和20-kb基因组寡妇59;使用这些值的前5%计算显着性。   TREEMIX模型仅使用基因模型之外的SNP运行:-seed 69696969 -o out_stem -m 5 -k 50 -k 50 -noss -root asian_hemp 。模拟了1到10个迁移方案 ,并根据LN(可能性)进行排名。选择了五个迁移事件(-m = 5)作为最可能的最终数字。   将局部PCA方法应用于分阶段SNP ,SNP之间的间距为1,000 bp,而100 SNPS134的基因组窗口 。   植物性疾病抗性基因类似物是由其编码蛋白中存在一个或多个高度保守的氨基酸基序来定义的。这些基序编码确定病原体特异性和亚细胞定位的功能蛋白结构域。取决于特定的致病系统,抗性基因模拟蛋白可以完全是细胞质的 ,也可以用细胞质功能域,细胞外域或两者兼有细胞膜 。   Drago2135用于识别78个染色体级别,单倍型分辨基因组的植物性抗病基因类似物中保守的基序。输入文件是每个基因组的成绩单注释FASTA文件。含有核苷酸结合位点(NB)和富含亮氨酸重复(LRR)结构域的一组基因作为模因的输入 ,以评估和比较基因组中基序中的氨基酸组成 。   为了鉴定与白粉病耐药性有关的基因,标记物的序列映射到Chr 。CBDRX中的2用作针对EH23A锚基因组的BLASTN查询136。由此产生的命中在CHR上具有96%的核苷酸身份。EH23A的2分别为77,292,037–77,291,397 bp 。它位于一个由46个基因组成的集群中,其中包括32个具有激酶结构域的基因 ,6种受体样激酶,两个具有核苷酸结合位点以及跨膜结构域,一个具有盘绕型和激酶结构域的结构域 ,一个带有盘绕螺旋和激酶结构域,另一个具有盘绕螺旋,核苷酸 ,核苷酸结合位点和跨膜结构域。爆炸本身是两个注释的激酶基因EH23A.CHR2.V1.G115480和EH23A.CHR2.V1.G115510之间。   由此产生的顶爆 ,并未与任何基因注释重叠 。然而,38个基因组中有16个在CHR上受到爆炸命中。2具有> 95%核苷酸对CBDRX基因的身份;其中,其中9个分别在所有三个外显子(1,745 bp ,1,448 bp和287 bp)上具有99-100%的核苷酸同一性。来自16个基因组(H3S7A,OFBA,SZFBA ,TKFBA和WCFBA)中的5个序列分别与其余的聚集 。这些以1 bp的插入在第一个外显子中插入,外显子空间中的十个小indels(2-8 bp)和1,280 bp的第二个内含子。将这些区域提取并与CBDRX基因序列对齐,并使用比对生成最大样本树(扩展数据图8)。   盘绕螺旋型NBS-LRR基因(CNL)在CHR上显示出独特的模式 。3和chr。6。在400–600 kb之间有一到两个CNL基因;1-1.4 MB之间的2到4个;一到两个以6–8 MB的速度;一个CNL基因在35-37 MB的染色体的cn层附近附近 ,在78-84 MB之间的1到5(COFBA)CNL 。这种模式的例外是OFBA,H3S1A和MMV31A,它们在中心区缺乏CNL 。在SDFBA和SN1V3A中 ,centromeric CNL分别位于42.8和47.5 MB。SN1V3A的CNL为12.2 MB,总体模式的另一个例外。chr 。3中的3比其他基因组大,为90 MB ,而其余的则为80-85 MB。最后 ,Gerv1a在Chr的78-84 MB区域中缺乏CNL。3 。   将每个大麻蛋白质组与Uniprot(搜索标准“胚胎”和“审查”; 2022年9月20日访问)的40,926个蛋白序列对齐; BLASTP(BLAST 2.6.0,2016年12月7日构建)137。对齐阈值包括小于10-3的电子价值阈值,至少20%的查询覆盖范围和基于对齐的长度的标识。还基于PFAM结构域PF01397和/或PF03936139的存在鉴定了萜烯合酶 。为了评估域含量 ,将每个大麻蛋白质组织与PFAM-A.HMM数据库对齐(2021年11月15日上次修改; 2022年9月20日访问)140与HMMSCAN(HMMER 3.3.3.2.2.2.2020)2020年11月3.3.2日)141 141在默认设置上。   萜烯生物合成通过两种途径进行:叶绿素甲基磷酸磷酸五,产生单萜和大麻素生物合成的前体,以及胞质甲龙甲硅酸盐途径 ,从而产生倍晶生物合成的前体。这些途径的蛋白质序列142,143,144与默认设置上的钻石版本2.1.4对齐每种大麻蛋白质组织 。   为了鉴定193个大麻基因组中的每一个中的全长大麻素合酶,参考大麻素合酶序列与BLASTN对齐基因组。用CBDRX11开发的富集LTR序列被用作进一步辅助合成酶的参考。LTR08是来自CBDRX基因组的LTR序列,与合成酶Cassettes相关 。写了一个Python脚本来吸收大麻素合酶爆炸结果 ,LTR08 BLAST结果以表格形式进行 。将长度<500 bp的合成酶击中被过滤掉。将ltr08命中率<1,250过滤掉。合成酶和LTR08击中不匹配<10的命中,零间隙被标记为“完整 ”序列 。所有其他命中均被标记为“部分”序列。然后将共享相同起始位置的命中进行过滤至单个序列,并根据以下几个序列给定一个合成酶标签。保留全命中并将其标记为相应的功能合酶 。在LTR08上游或下游的LTR08命中率60 KB之内的部分命中被标记为CBDA并保留。如果没有近距离LTR08的全命中或命中 ,则将斑点最高的命中标记为各自的合酶并保留。然后将过滤和标记的合成酶绘制到轨道上,以可视化基因组每个区域的大麻素合酶方向 。可视化至少需要四个合酶命中。Inkscape用于可视化合成酶盒式轨道。手动编辑用于校正CBDA和CBCA之间的一些错误标签 。合成型盒由整体盒式形状分组。   第一个Orfinder用于从上述潜在基因的初始列表中删除假基因(ftp.ncbi.nlm.nih.gov/genomes/tools/orffinders/orffinder/linux-i64/)。然后,我们将USEARCH11.0.667用于群集合成酶编码序列:-cluster_fast -ID 0.997 -Sort长度-Strand -strand -strand二 - centroids -clusters146 。然后 ,使用TranslatorX产生蛋白质引导的多个序列比对147 。通过使用MEGA11148中的最大似然方法和一般时间可逆模型来推断合酶进化史。   我们使用Pankmer的锚定函数在已知的大麻基因型三重奏中找到交叉事件(补充表15)。11个三重奏包括fb191作为varin-donor父 ,而6个三重奏包括SSV作为varin-donor父 。FB191的父母是HO40和FB30,而SSV的父母是HO40和SSLR;在这两种情况下,HO40都是Varin供体。对于每个三重奏 ,F1基因组是单倍型分辨的,并包括一个单倍型,来自varin-donor父母 ,一个来自非瓦林供体父母的单倍型。在每种情况下,我们都使用Pankmer锚定识别“ Varin单倍型” 。对于FB191三重奏,我们使用带有默认参数的“ Pankmer索引 ”生成了FB191基因组的31-Mer索引。使用Python脚本导入Pankmer的API函数Pankmer.anchor_region()和pankmer.anchor_genome()21 ,我们在十字架的每个单倍型中锚定了FB191索引,例如COFBA和COFBB。我们将Varin单倍型鉴定为FB191指数中31-MER保护的单倍型 。我们使用SSV的Pankmer索引将相同的过程应用于SSV三重奏。然后,我们试图追踪从HO40到十字架的varin单倍型的电势varin等位基因。为了代表HO40 ,我们生成了两个单基因组31-MER索引:一个用于HO40基因组,第二个用于高度相似的EH23A序列 。我们还生成了FB30和SSLR的单基因组31-mer索引。对于每个FB191交叉,我们将HO40索引 ,EH23A索引和FB30指数锚定为瓦林单倍型。我们通过K-MER保护值指示的明确的“单倍型开关”推断了位置上的分频事件 。我们重复了SSV Trio的相同过程 ,并应用SSLR索引代替FB30索引 。该分析的所有脚本均可在GitLab上获得。   首先,使用R中的BestNormization软件包用于选择有序的分位数(ORQ)方法来转换最初被视为多模式的变量比率数据。然后,将R149中GAPIT软件包的模型闪烁与PCA一起使用 。TOTAL= 6用于测试F2群体中SNP和变形的Varin比率数据之间的关联(补充表16)。根据对PCA的QQ图的可视化评估 ,选择了该总参数。总数为1-10,其中6是最小的数字,未显示P值的全身膨胀149 。接下来 ,与基于K-MER的交叉结果结合使用了四个FDR校正的显着SNP的区域(补充表16),对基因和TE模型进行了手动评估。在四个重要的SNP中,我们将进一步的分析集中在与前两个​​最高表型方差相关的基因上所解释的(补充图25)。然后 ,提取了用于BKR,ALT3和ALT4的矫正器组,将三个Alt3和Alt4正群汇集为一组Alt基因计数 。BKR和Alt蛋白序列的系统发育是在Mega中使用100个bootstrap Replicates148的正晶的邻居加入方法构建的。显示的BKR比对和翻译是使用默认设置上的Geneious150比对算法进行的(图5)。   使用BWA(V.0.7.17)MEM将基于Y的K-MER(Y-MER)映射到X/Y单倍型 ,需要完美的对齐,并允许多映射多达10次 。为了确定推定的SDR-PAR边界,我们专注于在Y-MER映射密度降低的区域中提取保守的直系同源物进行后续基因树分析。使用多个序列比对选项的矫形器(v.2.5.4)定义直系同源物。使用来自本研究的所有可用男性(XY)组件的蛋白质(包括所有雄性和几个雌性重叠级的组件)以及其他研究的其他研究组件进行矫正器:(1)Boaxa;(2)Boaxb;(3)AH3MA;(4)AH3MB;(5)BCMA;(6)BCMB;(7)grma;(8)BCMB;(9)grma;(10)carmagnola_hap229;(11)futura75_hap129;(12)futura75_hap229;(13)Ottoii_hap129;(14)Ottoii_hap229;(15)USO31_HAP129;(16)USO31_HAP229;(17)fimv1a;(18)fimv1b;(19)GVA-H-22-1061-002_HAP134;(20)GVA-H-22-1061-002_HAP234;(21)GVA-H-21-1003-002_HAP134;(22)GVA-H-21-1003-002_HAP234;(23)SAN2A;(24)SAN2B;(25)TIBV1A;(26)TIBV1B;(27)WFV1A;(28)WFV1B;(29)WIV1A;(30)WIV1B;(31)ymmv1a;和(32)ymmv1b 。   估计跨越假定的SDR-PAR边界的十个保守的直系同源物估计基因树 ,以确定每个组件中哪些直系同源物是SDR或PAR链接的 。例如 ,当Y Gametologue(X和Y染色体上的1:1直系同源物)与SDR151紧密相关时,预计对包含X-或Y连锁直系同源物的单独支撑物的强烈支撑。   对于所有十个保守的直系同源物或配子,我们:(1)使用BlastN(Blast+ V.2.14.1)和BedTools(V.2.31.0)GetFasta ,以查找和提取全长基因的核苷酸序列(包括内含子);(2)使用选项“ - localpair--墨西哥1000”将每个基因矩阵与mafft(v.7.505)对齐(v.7.505);(3)带有iq-Tree(v.1.6.12)的最大可能性树,带有“ -mfp -bb 1000 ”选项。在分析了X-Y Gometologue树之后,我们使用了对应于第一个假定Y特异性的SDR链接基因的基因坐标来定义每个SDR边界 ,然后用10 bp填充了启动坐标 。X特异性区域的开始(即,X上不与Y重新组合并与Y-SDR共结合的区域)是基于与第一个Y特异性基因相对应的X-Gametologue坐标定义的。   SDR – PAR边界是使用来自SDR边界区域的XY Gametologues的基因树来定义的,我们通过将其映射到每个单倍型来鉴定出该基因树。我们的基因树分析揭示了两个具有不同SDR边界(YA和YB)的主要Y单倍型组 。“云边界”代表了基于XY Gametologue关系的大麻内SDR -PAR边界的变化。YA在我们的数据集(n = 6)中更为常见 ,并且显示出跨越云边界的〜132-kb扩展的SDR;而该区域保持在较不频繁的Yb,单倍型(n = 2)中。在主要文本中报道的YA单倍型在BCMB(野性),GRMA(HC大麻) ,AH3MB(MJ)和Carmagnola(Carmagnola)和Carmagnola(来自意大利北部的纤维大麻兰德拉斯),YB单倍型在Kompolti(匈牙利纤维纤维)中被发现的YB单倍型,该型号是较旧的Fiber and fromistians ,是从匈牙利纤维中选择的 。GVA-H-21-1003-002(来自美国纽约州的孤立野生人口)。   有关研究设计的更多信息可在与本文有关的自然投资组合报告摘要中获得。

本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://m1.xianggongguan.cn/xgzx/202506-2090.html

(22)
admin的头像admin签约作者

文章推荐

发表回复

作者才能评论

评论列表(3条)

  • admin的头像
    admin 2025年06月21日

    我是象功馆的签约作者“admin”

  • admin
    admin 2025年06月21日

    本文概览:  从多个来源选择饱腹c。pangenome样品,以最大程度地提高遗传多样性,历史和农艺价值。Pangenome的很大一部分来自包括精英品种在内的俄勒冈州CBD(OCBD)育种...

  • admin
    用户062107 2025年06月21日

    文章不错《在野生马赛克大麻pangenome中,驯化的大麻素合酶》内容很有帮助

联系我们

邮件:象功馆@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信