Foldseek 同源结构搜索默认输出字段有:query、target、fident、alnlen、mismatch、gapopen、qstart、qend、tstart、tend、evaluate、bits,但可以用--format-output 输出选项进行自定义,例如--format-output“query、target,qaln,taln”以制表符分隔的格式返回查询和目标加入以及成对对齐。

官方支持的字段查看

foldseek easy-search -h

搜索命令示例

foldseek easy-search rag2_structures/P55895.pdb foldseek_search_db/hits_AF_structure foldseek_search_result/aln2 foldseek_search_result/tmp --threads 64 --format-mode 4

输出结果aln文件(tsv文件,\t 分割)内容为:

query   target  fident  alnlen  mismatch        gapopen qstart  qend    tstart  tend    evalue  bits
P55895.pdb      A0A077YXB0.pdb  0.133   351     300     0       3       349     236     586     6.971E-16       753
P55895.pdb      A0A183IDA3.pdb  0.130   346     291     0       2       347     258     592     2.673E-14       682
P55895.pdb      A0A0A9Y7I8.pdb  0.123   340     296     0       13      352     10      347     1.248E-13       652
P55895.pdb      A0A4E0RFA2.pdb  0.125   357     291     0       1       357     1       333     2.987E-13       635
P55895.pdb      A0A6F9DJH8.pdb  0.122   524     385     0       2       525     25      463     5.255E-13       624
P55895.pdb      E4XUA4.pdb      0.134   432     372     0       4       435     147     577     6.454E-13       620
P55895.pdb      A0A023F292.pdb  0.138   526     375     0       2       527     1       436     7.529E-13       617
P55895.pdb      A0A1I7Y786.pdb  0.129   337     290     0       16      352     63      396     7.926E-13       616
...

部分字段解释:

字段 含义说明
fident aligned 部分的序列百分比相似度(fraction identity)
alnlen 对齐的长度(不包括gap)
bits bit-score,比对得分(越高越显著)
evalue e-value,统计显著性(越小越显著)
qstart/qendtstart/tend 对齐起止位置
mismatch 对齐中的错配数
qcovtcov 覆盖率(非默认字段,需显式请求)

推荐阈值设置(基于你的设置)

指标 推荐阈值 解释
evalue < 1e-4 ~ 1e-3 适用于小型数据库(如 1 万结构),较宽松的同源性判断
bits > 80 ~ 100 依赖于对齐长度,长序列比对更容易得高分。
fident > 0.2 ~ 0.3 如果仅用于结构同源性识别(而非序列保守性),可以允许低序列一致性
alnlen > 100 建议对齐区域不少于 25% 的 query 长度(即 400aa 的 1/4)

注:Foldseek 是基于结构embedding对比,不是原子精度比对工具(不像 TM-align)。其快速搜索阶段主要依赖于高维特征空间中向量的相似性,而不是结构坐标重建。lddt(局部结构精度评分)和 TM-score(全局拓扑相似性)都需要结构原子坐标级别的详细比对,Foldseek 的搜索阶段并不会计算这些。用 TM-align / US-align / Dali 等工具对 top hits 进行 精细结构对齐,可以获得TM-score / lDDT / RMSD 等结构质量指标并进一步筛选。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐