首页 > 编程学习 > Lesson1:酶预测大赛1

Lesson1:酶预测大赛1

发布时间:2022/11/14 11:05:03

目录

  • 5. 比赛数据探索性分析
    • 5.1 数据描述
  • 6. 跑通 baseline & 提交

5. 比赛数据探索性分析

5.1 数据描述

test.csv是测试数据,会给你,sequence id 和蛋白质序列,需要预测每一个

提交文件的时候,只需要做的事情是把每一个seq_id和tm的值预测出来,也就是说我们在测试集的时候,有seq_id和protein_sequence蛋白质序列,把tm值预测出来,它是一个离线的值,不像其它图片或者文本的比赛,你要提交代码上去,然后kaggle的后台给你运行。

因为如果你能看到这些测试集的话,有的人就会手动打标签,这会非常恶心。

测试集一旦公布出来,他就找一堆人去标数据,标了数据然后去拟合,因为你训练集永远是100%的准确度,而测试集的话,如果把训练集加入到测试集的话,标了个数据加入到了测试集中,那预测出来的结果比别人费好大劲儿整出来的模型的精度要高,这是作弊行为。但是,这个比赛不存在这种情况。

因为,蛋白质序列你怎么知道它的稳定性呢?不会有人去挨个去试,如下图所示,有2413个蛋白质序列之多,所以它就很放心的把,,,最后你只需要本地去生成一个CSV,提交上去就行了。
在这里插入图片描述

还提供了有一个 sample_submission.csv ,分位两列,一个是seq_id,一个是熔点 tm。
在这里插入图片描述
额外的,它提供了一个 wildtype_structure_prediction_af2.pdb,这个就是它们官方用 AlphaFold 预测的上述酶的三维结构,已经给你预测好了,2413个测试集的
在这里插入图片描述
首先,有一个开源的库,它额外的给测试集加了一点东西,原始测试集只是告诉你 seq_id,protein_sequence,pH,data_source,等,如下图所示。
在这里插入图片描述
而开源的discussion,它把测试集给扩展了,还标记了每一个蛋白质序列的编辑次数,把编辑的类型也进行了标记。

另外,它也标记了发生插入、删除、替换字符串的索引的位置,也进行了标记。另外,它也把原来的字符里的位置,字符的通配符的索引也给标注了起来。

最后,它也把插入替换的那些字符也给替换出来了。
在这里插入图片描述

6. 跑通 baseline & 提交

首先打开 DeepDDG这个网站:网站链接
在这里插入图片描述

看一下这个论文,这个论文在下一篇博客讲,它们开发了一个 server,它们把它们训练好的模型放在上面,你每次就把DeepDDG,就是官方已经转化好了蛋白质的三维结构,你写上邮件地址,它就会给你预测出来。
在这里插入图片描述

Copyright © 2010-2022 dgrt.cn 版权所有 |关于我们| 联系方式