Παρόλο που σημαντική πρόοδος έχει επιτελεστεί όταν η επιλογή μεταβλητών εφαρμόζεται για να αυξήσει την ικανότητα κατηγοριοποίησης, καινούργιες και σημαντικές κατευθύνσεις απαιτείται να εξερευνηθούν όταν η επιλογή μεταβλητών εφαρμόζεται με σκοπό την κατανόηση του συστήματος υπό εξέταση. Αυτή η ανάγκη είναι ιδιαίτερα σημαντική στην ανάλυση πολυδιαστατικών δεδομένων όπως είναι τα –ομικά δεδομένα (π.χ., γονιδιακές εκφράσεις, επίπεδα μεθυλίωσης, next generation sequencing, και άλλα).
Προτείνουμε ένα εντατικό πρόγραμμα έρευνας για την αντιμετώπιση αυτών των αναγκών, ιδιαίτερα στην ιατρική και βιολογία, αλλά και γενικότερα στις αναλύσεις πολύ-διαστατικών δεδομένων. Προτείνουμε νέες κατευθύνσεις στο πρόβλημα επιλογής μεταβλητών με θεωρητικές διασυνδέσεις με την αιτιότητα και αιτιακές θεωρίες.
Προτείνουμε την μελέτη (α) αλγορίθμων επιλογής μεταβλητών για επαναλαμβανόμενες μετρήσεις και χρονικά δεδομένα, (β) επιλογή μεταβλητών σε προβλήματα που προσπαθούμε να προβλέψουμε την επίδραση πειραματικών επεμβάσεων (π.χ., αφαίρεση κάποιου γονιδίου), επιλογή μεταβλητών ταυτόχρονα από διαφορετικά και ετερογενή σύνολα δεδομένων, καθώς και από πρότερη γνώση, (δ) επιλογή μεταβλητών με στόχο την ανακάλυψη όλων των βέλτιστων υποσυνόλων μεταβλητών και όχι μόνο ενός (αυτό είναι ιδιαίτερα σημαντικό για χαμηλά μεγέθη δείγματος και σε περιπτώσεις συγγραμικότητας) και (ε) επιλογή μεταβλητών για «δύσκολες» κατανομές όπου οι μονο-παραγοντικές συσχετίσεις για σημαντικές μεταβλητές εξαφανίζονται.
Οι αλγόριθμοι θα συνεξελιχθούν με τρία σημαντικά βιολογικά προβλήματα με πιθανά αποτελέσματα για την ανθρώπινη υγεία ώστε και στόχο την πρακτικότητα και χρησιμότητά τους: (Ι) καρκίνος του πνεύμονα και μεσοθηλιώματος (ΙΙ) χρόνιες παθήσεις του πνεύμονα, (ΙΙΙ) γήρανση εξαιτίας της καταστροφής του DNA. Τις εφαρμογές θα επιβλέψουν οι εθνικοί και διεθνείς μας συνεργάτες.
Για την διάδοση των αποτελεσμάτων οι αλγόριθμοι θα ενταχθούν σε ευκολόχρηστα εργαλεία για τους μη-ειδικούς