Το έργο «Prognochip» άρχισε το 2004 και χρηματοδοτείται από την ΓΓΕΤ του ΥΠΑΝ. Φέρνει μαζί επιστήμονες από πολλά διαφορετικά γνωστικά αντικείμενα, όπως ιατρική, μοριακή βιολογία, βιοπληροφορική, ιατρική πληροφορική, πληροφορική και βιο-στατιστική, οι οποίοι ενώνουν δυνάμεις και εξειδίκευση στην προσπάθεια για εντοπισμό και πειραματικής επιβεβαίωσης «μοριακών υπογραφών» σχετικών με τον καρκίνο του μαστού. Το Prognochip εστιάζεται στον καρκίνο του μαστού ο οποίος είναι ο πιο συνήθης τύπος καρκίνου στον γυναικείο πληθυσμό. Ο καρκίνος του μαστού είναι τόσο γενετικά όσο και ιστοπαθολογικά ετερογενής και οι μηχανισμοί πίσω από την ανάπτυξη του είναι σε μεγάλο βαθμό άγνωστοι. Παρά το γεγονός ότι παραδοσιακοί δείκτες, όπως η διήθηση των λεμφαδένων, η έκφραση των οιστρογονικών υποδοχέων και η ιστολογική διαβάθμιση του καρκινώματος, είναι αρκετά χρήσιμοι εξακολουθεί να είναι ιδιαίτερα δύσκολη η πρόγνωση της νόσου αναφορικά με το ποιος ασθενής θα αναπτύξει μεταστάσεις της νόσου. Η συνολική ανάλυση της γονιδιακής έκφρασης του ιστού με την χρήση τεχνολογιών μικροσυστοιχιών (Global gene expression analysis using microarrays) δίνει σημαντικές δυνατότητες για συσχετισμό των μοριακής υπογραφής του όγκου με το κλινικό αποτέλεσμα της ασθένειας και την δυνατότητα για κατηγοριοποίηση του καρκίνου. Η επιτυχία του στόχου αυτού θα δώσει τη δυνατότητα για εξατομικευμένη φροντίδα υγείας στην μεταγενομική εποχή. Από την πλευρά της πληροφορικής και ιδιαίτερα του τομέα της βιοϊατρικής πληροφορικής οι βασικές τεχνολογικές και ερευνητικές προκλήσεις που αντιμετωπίζονται στα πλαίσια του έργου αφορούν στην ανάπτυξη μεθοδολογιών και τεχνολογίας για την, με διαφανή τρόπο, ολοκλήρωση ετερογενών, κατανεμημένων βάσεων δεδομένων με γενομικά και κλινικά δεδομένα, και την υλοποίηση υπηρεσιών για την ανάλυση και εξόρυξη γνώσης από τα δεδομένα αυτά. Προς αυτή την κατεύθυνση στα πλαίσια του έργου υλοποιούνται δύο στρατηγικές εξόρυξης γνώσης. Η πρώτη βασίζεται σε «μη-επιβλεπόμενη» ανάλυση δεδομένων, η οποία δεν στηρίζεται σε προϋπάρχουσα γνώση και στην οποία τα δεδομένα αναλύονται με στόχο τον εντοπισμό «ομάδων» (clusters or patterns) που δυνητικά μπορούν να χρησιμοποιηθούν, αφού επιβεβαιωθούν με κλινικές μελέτες, σαν «ενδεικτικές μοριακές υπογραφές». Η δεύτερη βασίζεται σε «επιβλεπόμενη» ανάλυση αναζητώντας γονίδια των οποίων τα μοντέλα έκφρασης τους συσχετίζονται με εξωτερικές (κλινικές και άλλες) παραμέτρους.