저희 연구실에서는 빅데이터를 활용하는 알고리즘과 기계학습을 결합하여 알려지지 않은 미생물 군집에 대한 통찰력을 얻는 새로운 계산 방법을 제시하고 활용가능한 프로그램 및 도구를 개발합니다.
스타이네거 박사님은 현재 서울대학교 자연과학대학 생명과학부에 조교수로 재직 중입니다. 뮌헨 공과대학교 ( Technical University Munich) 와 뮌헨 루트비히 막시밀리안대학교 ( Ludwig Maximilian University of Munich) 에서 생물정보학과 컴퓨터과학을 공부했으며, 박하드 로스트 교수님 ( Professor Burkhard Rost) 과 함께 단백질 변형 예측과 관련된 연구 과 제들에 참여했습니다.
또한, 뮌헨 공과대학교에서 박사과정을 밟았으며, 막스 플랑크 생물리화학 연구소 ( Max Planck Institute for Biophysical Chemistry) 에 계신 요하네스 소딩 박사님 ( Dr. Johannes Söding) 과 함께 균유전체 시퀀싱 데이터를 분석하는 연구를 수행했습니다. 구체적으로, 유전체 시퀀싱 데이터 어셈블리(assembly)와 클러스터링(clustering), 그리고 annotation에 대해 연구했습니다. 박사 후 과정으로는, 존스홉킨스 컴퓨터생명공학센터 ( CCB at Johns Hopkins University) 에 계신 스티븐 살츠버그 교수님 ( Professor Steven L. Salzberg) 과 함께 전염병의 병원성 개체를 식별하는 연구와 공공 유전체 데이터 베이스에서 오염된 데이터를 식별하는 연구, 그리고 인간 단백체에서 누락된 엑손을 찾는 연구를 수행하였습니다.
스타이네거 박사님은 방대한 양의 염기 서열 시퀀싱 데이터 분석과 분석 방법을 오랜 시간 연구한 해당 분야 전문가이며, 개방 과학 (open science) 과 오픈 소스 (open source) 를 통한 학문적 성장을 지지합니다.
P.hD. in Computer Science, 2018
Technical University Munich
M.Sc. in Computer Science, 2014
Ludwig-Maximilians-University Munich
B.Sc. in Bioinformatics, 2013
Technical University Munich/Ludwig-Maximilians-University Munich
함께 연구할 박사후 연구원, 대학원생, 인턴을 모집하고 있습니다.
MMseqs2 (Many-against-Many sequence searching)는 사이즈가 큰 단백질 및 DNA, RNA 서열 세트를 검색하고 클러스터링하는 소프트웨어 모음입니다. MMseqs2는 BLAST보다 10000배 빠르게 실행되며, PSI-BLAST와 동일한 민감도 (sensitivity)를 유지한 채 400배 이상의 향상된 속도로 프로파일 검색을 수행 할 수 있습니다.
ColabFold는 쉽고 빠르고 간편하게 단백질 구조를 예측할 수 있는 환경을 제공합니다. MMseqs2를 사용하여 AlphaFold 시스템보다 16배 빠르게 multiple sequence alignment를 생성하는 모듈을 탑재한 AlphaFold2 및 RoseTTAFold를 사용하여 단백질 구조를 보다 빠르게 예측할 수 있습니다.
Linclust는 여러 시퀀스들을 쌍방향 서열 유사도 (pairwise sequencing similarity) 50% 범위 이내로 클러스터링 할 수 있는 소프트웨어입니다. 실행 시간은 기존 알고리즘이 세트 크기의 제곱에 비례하는데 비해, Linclust는 입력된 세트 크기에 따라 선형으로 증가하며 다른 툴들에 비해 1000배 이상 빠릅니다.
Plass는 단백질 수준에서 짧은 리드 길이의 시퀀싱 데이터를 조립 (assemebly for short read sequencing) 하는 소프트웨어입니다. Plass의 주요 목적은 복잡한 메타 유전체 데이터 세트를 조립하는 것입니다. Megahit과 비교했을 때, 토양 메타 유전체 데이터에서 10배 더 많은 단백질 서열을 조립합니다.
Conterminator는 포괄적인 전체 시퀀스 비교 (all-against-all comparison)를 통해 계 (Kingdom) 수준에서 잘못 라벨링된 서열을 감지하는 효율적인 방법입니다.
Barrio-Hernandez I., Yeo J., Jänes J., Mirdita M., Gilchrist C.L.M., Wein T., Varadi M., Velankar S., Beltrao P., Steinegger M. (2023) Clustering predicted structures at the scale of the known protein universe, Nature [preprint] [journal] [software]
van Kempen M., Kim S.S., Tumescheit C., Mirdita M., Lee J., Gilchrist C.L.M., Söding J., Steinegger M. (2023) Fast and accurate protein structure search with Foldseek, Nature Biotechnology [preprint] [journal] [software]
Mirdita M., Schütze K., Moriwaki Y., Heo L., Ovchinnikov S., Steinegger M. (2022) ColabFold: making protein folding accessible to all, Nature Methods [preprint] [journal] [software]
Steinegger M., Salzberg S.L. (2020) Terminating contamination: large-scale search identifies more than 2,000,000 contaminated entries in GenBank, Genome Biology [preprint] [journal] [software]
Steinegger M., Meier M., Mirdita M., Vöhringer H., Haunsberger S.J., Söding J. (2019) HH-suite3 for fast remote homology detection and deep protein annotation, BMC Bioinformatics [preprint] [journal] [software]
Steinegger M., Mirdita M., Söding J. (2019) Protein-level assembly increases protein sequence recovery from metagenomic samples manyfold, Nature Methods [prerprint] [journal] [software]
Steinegger M., Söding J. (2018) Clustering huge protein sequence sets in linear time, Nature Communications [preprint] [journal] [software]
Steinegger M., Söding J. (2017) MMseqs2: Sensitive protein sequence searching for the analysis of massive data sets, Nature Biotechnology [preprint] [journal] [software]