library(clusterProfiler)
x <- c("GPX3", "GLRX", "LBP", "CRYAB", "DEFB1", "HCLS1", "SOD2", "HSPA2")
ids = bitr(x, fromType="SYMBOL", toType="ENTREZID", OrgDb="org.Hs.eg.db")
idsBiological ID Translation
clusterProfiler 包的 KEGG 富集分析可用 ID 包括kegg,ncbi-geneid,ncbi-proteinid或uniprot。真核生物的kegg和ncbi-geneid均为Entrez ID,原核生物的kegg则为Locus Tag。蛋白质谱一般使用 Uniprot ID,但测序数据有时以 Gene Symbol 或者 Ensembl ID 展示,不在 KEGG 支持的 ID 范围中,如果想用这些结果做 KEGG 富集分析需进行 ID 转换。
bitr()是专用于 ID 转换的函数,其OrgDB参数指定物种类型,人为org.Hs.eg.db,小鼠为org.Mm.eg.db。以人源 Gene Symbol 为例,将其转换为 Entrez ID。
另有处理 KEGG ID 的专用函数bitr_kegg(),其 fromType 和 toType 均为 KEGG 支持 ID 类型的四者之一。 (似乎意义不大,毕竟一般来讲都是把 KEGG 不支持的 ID 转换成 KEGG 支持的 ID,而不是在 KEGG 支持的 ID 类型中互相转换。)
ids <- bitr_kegg(x, fromType='kegg', toType='ncbi-proteinid', organism='hsa')需要注意的是,这些 ID 之间并不是一一对应的,例如有些 Ensembl ID 没有对应的 Entrez ID,有些对应多个 Entrez ID。