Odkrycia i technologie
Jesteśmy coraz bliżsi poznania procesów prowadzących do nowotworzenia
O projekcie Pan-Cancer, poszukiwaniu mechanizmów powstawania raka, szczepionce na HIV i badaniach nad cukrzycą typu 2 z prof. Janem Komorowskim z Katedry Bioinformatyki Uniwersytetu w Uppsali i profesorem wizytującym w Polskiej Akademii Nauk rozmawia Agnieszka Fedorczyk.
MT: Jaka jest rola bioinformatyki w projekcie Pan-Cancer?
Prof. Jan Komorowski: Produkowanie i zbieranie danych skompletowanych w Pan-Cancer było rozproszone. Nawet jeśli zbierano je przy wykorzystaniu takich samych urządzeń, odbywało się to w trochę innych warunkach, z udziałem nieco inaczej wyszkolonych ludzi. Naszą pierwszą rolą jest skalibrowanie tych danych (w pewnym sensie), tak żeby wyniki z USA, Europy i Japonii można było użyć w tej samej analizie, a następnie wyciągnąć z niej wnioski. Potem budujemy różne modele, np. znajdujemy funkcyjne mutacje i szukamy kombinacji mutacji, które prowadzą do nowotworzenia.
MT: Co osiągnięto w projekcie Pan-Cancer?
J.K.: Potwierdzono szereg znanych mutacji nowotworzeniowych występujących w obszarach kodujących. Najważniejsze jest odkrycie szeregu mutacji w obszarach regulatorowych, po 5-7 dla każdego rodzaju nowotworu. Okazało się też, że tylko jedna z nich jest wspólna dla wszystkich raków.
MT: Dlaczego to jest ważne?
J.K.: Wykrycie takich mutacji jest pierwszym krokiem w konstruowaniu leków zapobiegających nowotworzeniu. Już dzisiaj mamy leki, którymi przy określonych mutacjach, np. w raku jelita grubego, można tak zadziałać na poziomie DNA, żeby zahamować jego rozwój. Znamy mutację, która spowodowała nieprawidłowe formowanie się białka i tam możemy przyłączyć lekarstwo, tak by zmienić zachowanie genu. Rzecz w tym, by trafiać w te mutacje, które są funkcyjne. Nowe leki, specyficznie działające na takie mutacje, mogą powstać w perspektywie 5-10 lat. Ważnym celem projektu Pan-Cancer jest określenie mutacji funkcyjnych prowadzących do niewłączania się genu albo włączania się genów, które nie powinny się włączyć, bądź mutacji w obszarach kodujących (brak produkcji białka lub produkcja wadliwego białka).
MT: Na czym jeszcze polega rola bioinformatyki?
J.K.: Na analizie ogromnej ilości danych, z których budujemy modele działania różnych systemów w komórkach, organizmach, a nawet w populacjach. Już w 1975 r. polsko-amerykański naukowiec Stanisław Ulam stwierdził, że to, co matematyka zrobiła dla fizyki, informatyka zrobi dla biologii. To były prorocze przewidywania.
Rola bioinformatyki jest inna niż ta, którą kiedyś odgrywała biostatystyka. Dawniej w badaniach medycznych dominowało zbieranie danych od kilku, kilkudziesięciu pacjentów. Robiono analizy i na koniec proszono biostatystyka, by sprawdził, czy wszystkie kwestie statystyczne zostały uwzględnione. Dzisiaj tak nie pracujemy. Bioinformatyk jest partnerem badań już od początku, w momencie ich projektowania. Chodzi o to, by skonstruować doświadczenie w taki sposób, żeby dane, które będą wyprodukowane, nadawały się do skomplikowanych analiz. Dobrze, gdy bioinformatyk zna się na biomedycynie, a badacz medyczny na informatyce. Potrzebny jest wspólny język. Wypracowanie wspólnego języka z genetykiem, z którym współpracuję, zajęło mi 2 lata.
MT: Na czym polega współpraca między lekarzami, biologami a bioinformatykami w badaniach medycznych? Jak komunikują się naukowcy reprezentujący tak różne dziedziny?
J.K.: Jako bioinformatyk uczestniczę od początku w procesie konstruowania eksperymentu, po to by miał odpowiednie właściwości statystyczne i aby było możliwe wykrycie istotnych własności odpowiedzialnych za patologię. Jednym z pytań, które mi zada badacz medycyny molekularnej, jest pytanie o to, jakie geny i w jakich kombinacjach ich regulacji (zwiększona ekspresja, niezmieniona lub obniżona) uczestniczyły w procesie nowotworzenia, w porównaniu z procesami zachodzącymi w zdrowej tkance. Moim zadaniem jest wybrać te geny spośród 40-60 tys. Do tego celu stosujemy tzw. selekcję własności, która pomaga nawet z miliona zmiennych wybrać istotne. Pierwszym narzędziem jest znalezienie tych własności, które charakteryzują różnice pomiędzy tkanką zdrową a chorą. Stosujemy tu metody sztucznej inteligencji, a dokładniej uczenia maszynowego (machine learning). Do znajdowania tych istotnych własności stosuję m.in. metodę zbudowaną w Instytucie Podstaw Informatyki przez prof. Jacka Koronackiego i jego doktoranta Michała Dramińskiego, nazywającą się Monte Carlo Feature Selection. Następnie budujemy model, czyli klasyfikator, który potrafi rozróżnić tkankę zdrową od chorej i robi to w postaci tzw. reguł JEŚLI-TO. Te reguły są zbudowane w bardzo prosty sposób: JEŚLI ekspresja genu A jest podwyższona, genu B jest obniżona, a gen C ma niezmienioną ekspresję, TO tkanka jest nowotworowa. I tu też stosujemy polską metodę uczenia maszynowego. Są to zbiory przybliżone zaproponowane przez prof. Zdzisława Pawlaka w 1982 r.
Metody uczenia maszynowego są dziś często używane przez bioinformatyków. Zaletą metody zbiorów przybliżonych jest możliwość bezpośredniej interpretacji, reguła wskazuje bowiem explicite, dlaczego można podjąć daną decyzję. Ale jeżeli mamy dokonać odkryć naukowych, musimy się dowiedzieć, jakie własności przyczyniły się do tego, że nowotwór powstał. Gdy już mamy system reguł, który klasyfikuje dane, możemy obserwować, jakie grupy genów decydują o tym, czy nowotwór powstaje, czy nie, a zatem poznawać procesy prowadzące do nowotworzenia.
MT: Współpracuje pan również z Uniwersytetem Waszyngtońskim w Seattle, analizując szczepionki przeciwko HIV.
J.K.: Historia tej współpracy jest bardzo ciekawa. Jeden z badaczy pracujących w mojej grupie, dr Fredrik Barrenäs, wrócił ze stażu na Uniwersytecie Waszyngtońskim w Seattle i podzielił się problemem, który mieli tamtejsi naukowcy prowadzący badania nad szczepionką na HIV. W Seattle jest centrum sekwencjonowania DNA z krwi pobranej od małpek makak rezus szczepionych przeciwko SIV (simian immunodeficiency virus), wersji HIV u małp. Wirus ten, jak wiemy, przekroczył barierę gatunkową i przeskoczył z małp (SIV) na człowieka (HIV). SIV i HIV są bardzo podobne. Badania prowadzi się na małpkach z południowo-wschodniej Azji (makak rezus), spokrewnionych z zielonymi małpkami żyjącymi w Afryce. Mimo bardzo bliskiego pokrewieństwa, makak rezus po zakażeniu SIV choruje na AIDS, natomiast zielona małpka nie. Powstało pytanie, czy można za pomocą szczepionki wywołać reakcje uodparniające u makaka rezusa.
Rezusy są szczepione w ściśle określonym reżimie. Najpierw pobiera się od nich krew, potem się je szczepi. Następnie robi się wzmocnienie (boost) w 18 tygodniu oraz w 88-91 tygodniu (różnie w różnych doświadczeniach) i małpki (tylko samce są poddane doświadczeniu) zakaża się SIV przez wstrzyknięcie wirusa do odbytu. Patrzymy, czy zwierzę zachoruje, czy nie. Jeżeli nie zachoruje, mimo tych 3 zakażeń, uznajemy je za uodpornione.
Podczas całego procesu pobiera się wielokrotnie krew w 1, 2 i 3 tygodniu po szczepionce, po wzmocnieniu i wreszcie na końcu, przed zakażeniem wirusem. Z próbek krwi uzyskuje się dane RNAseq, które opisują poziomy ekspresji genów. Z tych danych możemy konstruować klasyfikatory przewidujące, które małpki uzyskają odporność na wirusa, a które nie. Wiedza, które geny i w jakich kombinacjach ich poziomów ekspresji przyczyniają się do powstania odporności, a jakie kombinacje charakteryzują zwierzęta, które tej odporności nie nabywają, jest istotna dla konstruktora szczepionki. Może ją ulepszać.