Foldseek结构搜索结果筛选
Foldseek 同源结构搜索默认输出字段有:query、target、fident、alnlen、mismatch、gapopen、qstart、qend、tstart、tend、evaluate、bits,但可以用--format-output 输出选项进行自定义,例如--format-output“query、target,qaln,taln”以制表符分隔的格式返回查询和目标加入以及成对对齐
Foldseek 同源结构搜索默认输出字段有:query、target、fident、alnlen、mismatch、gapopen、qstart、qend、tstart、tend、evaluate、bits,但可以用--format-output 输出选项进行自定义,例如--format-output“query、target,qaln,taln”以制表符分隔的格式返回查询和目标加入以及成对对齐。
官方支持的字段查看
foldseek easy-search -h
搜索命令示例
foldseek easy-search rag2_structures/P55895.pdb foldseek_search_db/hits_AF_structure foldseek_search_result/aln2 foldseek_search_result/tmp --threads 64 --format-mode 4
输出结果aln文件(tsv文件,\t 分割)内容为:
query target fident alnlen mismatch gapopen qstart qend tstart tend evalue bits
P55895.pdb A0A077YXB0.pdb 0.133 351 300 0 3 349 236 586 6.971E-16 753
P55895.pdb A0A183IDA3.pdb 0.130 346 291 0 2 347 258 592 2.673E-14 682
P55895.pdb A0A0A9Y7I8.pdb 0.123 340 296 0 13 352 10 347 1.248E-13 652
P55895.pdb A0A4E0RFA2.pdb 0.125 357 291 0 1 357 1 333 2.987E-13 635
P55895.pdb A0A6F9DJH8.pdb 0.122 524 385 0 2 525 25 463 5.255E-13 624
P55895.pdb E4XUA4.pdb 0.134 432 372 0 4 435 147 577 6.454E-13 620
P55895.pdb A0A023F292.pdb 0.138 526 375 0 2 527 1 436 7.529E-13 617
P55895.pdb A0A1I7Y786.pdb 0.129 337 290 0 16 352 63 396 7.926E-13 616
...
部分字段解释:
字段 | 含义说明 |
---|---|
fident |
aligned 部分的序列百分比相似度(fraction identity) |
alnlen |
对齐的长度(不包括gap) |
bits |
bit-score,比对得分(越高越显著) |
evalue |
e-value,统计显著性(越小越显著) |
qstart/qend , tstart/tend |
对齐起止位置 |
mismatch |
对齐中的错配数 |
qcov , tcov |
覆盖率(非默认字段,需显式请求) |
推荐阈值设置(基于你的设置)
指标 | 推荐阈值 | 解释 |
---|---|---|
evalue | < 1e-4 ~ 1e-3 | 适用于小型数据库(如 1 万结构),较宽松的同源性判断 |
bits | > 80 ~ 100 | 依赖于对齐长度,长序列比对更容易得高分。 |
fident | > 0.2 ~ 0.3 | 如果仅用于结构同源性识别(而非序列保守性),可以允许低序列一致性 |
alnlen | > 100 | 建议对齐区域不少于 25% 的 query 长度(即 400aa 的 1/4) |
注:Foldseek 是基于结构embedding对比,不是原子精度比对工具(不像 TM-align)。其快速搜索阶段主要依赖于高维特征空间中向量的相似性,而不是结构坐标重建。lddt
(局部结构精度评分)和 TM-score
(全局拓扑相似性)都需要结构原子坐标级别的详细比对,Foldseek 的搜索阶段并不会计算这些。用 TM-align / US-align / Dali 等工具对 top hits 进行 精细结构对齐,可以获得TM-score
/ lDDT
/ RMSD 等结构质量指标并进一步筛选。
更多推荐
所有评论(0)