HOBBIT Holistic Benchmarking of Big Linked Data

Ημερομηνία : 26.08.2016

To έργο HOBBIT ξεκίνησε τον Δεκέμβριο του 2015, και επικεντρώνεται στην σχεδίαση της αρχιτεκτονικής και την ανάπτυξη μιας Πλατφόρμας Συγκριτικής Αξιολόγησης, αλλά και στην δημιουργία κοινότητας χρηστών.

Η ιδέα της δημιουργίας μιας πλατφόρμας φιλοξενίας διαφορετικών εργαλείων συγκριτικής αξιολόγησης του κύκλου ζωής Μεγάλων Διασυνδεδεμένων Δεδομένων, γεννήθηκε με την δημιουργία του έργου General Entity Annotator Benchmarking Framework (GERBIL). Το GERBIL [1] σχεδιάστηκε για να διευκολύνει την συγκριτική αξιολόγηση της αναγνώρισης επώνυμων οντοτήτων (named entity recognition - NER), της αποσαφήνισης επώνυμων οντοτήτων (named entity disambiguation – NED) και άλλες προσεγγίσεις σημασιολογικής απόδοσης ετικετών (semantic tagging). Ο σκοπός του είναι να παρέχει σε προγραμματιστές, χρήστες και ερευνητές, εύχρηστες διεπαφές, που επιτρέπουν την ευέλικτη, λεπτομερή και ομοιόμορφη αξιολόγηση των εργαλείων σχολιασμού σε πολλαπλά σύνολα δεδομένων. Τα βασικά σημεία δυσκολίας για τους προγραμματιστές και τους χρήστες που ενθάρρυναν την δημιουργία του GERBIL είναι:

Προσβασιμότητα σε «Χρυσά» Πρότυπα. Οι προγραμματιστές απαιτούν την διάθεση «χρυσών» προτύπων (Gold Standards) συνόλων δεδομένων για να έχουν την δυνατότητα να ταχρησιμοποιήσουν κατά την αξιολόγηση των εργαλείων σχολιασμού. Τόσο οι μορφότυποι, όσο και οι αναπαραστάσεις των δεδομένων, σε αυτά τα χρυσά πρότυπα, διαφέρουν ανάλογα με τους διαφορετικούς τομείς και τα εργαλεία που χρησιμοποιούνται. Έτσι, οι προγραμματιστές που θέλουν να αξιολογήσουν τα συστήματά τους, χρειάζεται να υλοποιήσουν ένα μετατροπέα δεδομένων όπως επίσης και το απαιτούμενο εργαλείο αξιολόγησης προκειμένου να αξιοποιήσουν τα διαθέσιμα σύνολα δεδομένων.

Συγκρισιμότητα αποτελεσμάτων. Ένας μεγάλος αριθμός μέτρων αξιολόγησης ποιότητας (quality measures) έχουν αναπτυχθεί και χρησιμοποιούνται ενεργά από την ερευνητική κοινότητα με σκοπό την αξιολόγηση του ίδιου έργου , δυσχεραίνοντας με αυτόν τον τρόπο την σύγκριση αποτελεσμάτων που αφορούν σε διάφορες δημοσιεύσεις για το ίδιο αντικείμενο/θέμα. Για παράδειγμα, ενώ μερικοί συγγραφείς δημοσιεύουν μακροσκοπικά μέτρα σύγκρισης (macro-F-measures) και απλώς τα αναφέρουν ως F-measures, άλλοι δημοσιεύουν μικροσκοπικά μέτρα σύγκρισης (micro-F-measures) για τον ίδιο σκοπό, οδηγώντας σε μεγάλες ανισορροπίες στην βαθμολόγηση.

Επαναληψιμότητα των πειραμάτων. Όσον αφορά στις προκλήσεις για την αξιολόγηση εργαλείων, η αναδημιουργία των πειραμάτων είναι ένα δύσκολο έργο. Επιπλέον είναι δύσκολο να εντοπίσει κανείς τις παραμέτρους διαμόρφωσης της συγκριτικής αξιολόγησης καθώς και τα επιτεύγματα των αποτελεσμάτων.

Οι χρήστες του GERBIL μπορούν να έχουν πρόσβαση σε ένα σταθερό URL για τα πειράματά τους διαμέσω του οποίου τους παρέχεται πρόσβαση στα μεταδεδομένα των πειραμάτων σε μορφή που είναι εξίσου αντιληπτή/αναγνώσιμη τόσο από μηχανές όσο και από τον άνθρωπο.

Η πλατφόρμα HOBBIT θα επεκταθεί πέρα από τους μηχανισμούς του GERBIL με σκοπό να καλύψει τα διάφορα στάδια του κύκλου ζωής των Διασυνδεδεμένων Δεδομένων (δες Εικόνα 1). H πλατφόρμα ΗΟΒΒΙΤ καινοτομεί στην ολοκλήρωση των συνόλων δεδομένων, όχι μόνο σε ό τι αφορά τα ανοιχτά σύνολα δεδομένων, αλλά παρέχει ταυτόχρονα τα εργαλεία εκείνα που μπορούν να χρησιμοποιηθούν για την δημιουργία συνόλων δεδομένων που αναπαριστούν πραγματικά σύνολα δεδομένων προερχόμενων απο το χώρο της βιομηχανίας (δεδομένα κλειστού τύπου). Επιπρόσθετα με τα τυπικά μέτρα μέτρησης, όπως είναι η ακρίβεια, η ανάκληση, το F-measure και ο χρόνος εκτέλεσης (runtime), θα συλλέξουμε από την κοινότητα χρηστών τους σχετικούς βασικούς δείκτες απόδοσης (Key Performance Indicators - KPI) και θα παρέχουμε στην κοινότητα χρηστών και ιδιαίτερα στους ενδιαφερόμενους προγραμματιστές και χρήστες, υλοποιήσεις αναφοράς καθώς και δημόσιες αναφορές απόδοσης.

Για όποιον οργανισμό ενδιαφέρεται για τη συλλογή απαιτήσεων, έχουμε διεξαγάγει μια μικρή έρευνα σχετικά με τον τρόπο αξιολόγησης του λογισμικού τους. Ο σκοπός της έρευνας είναι να διερευνήσει τους σχετικούς με την βιομηχανία βασικούς δείκτες απόδοσης για την δημιουργία συγκριτικών αξιολογήσεων για την μέτρηση αυτών των παραγόντων. Με αυτή την έρευνα στοχεύουμε στην ευαισθητοποίηση του κόσμου σχετικά με το έργο HOBBIT και στην αναζήτηση πιθανών επαφών για την δημιουργία της ένωσης ΗΟΒΒΤ. Η ένωση αυτή μπορεί να παίξει πρωταρχικό ρόλο στον ορισμό της δομής της πλατφόρμας ΗΟΒΒΙΤ, παρέχοντας βασικούς δείκτες απόδοσης, σενάρια χρήσης και σύνολα δεδομένων.

Εικόνα 1. Κατηγορίες προκλήσεων Διασυνδεδεμένων Δεδομένων στο HOBBIT

ΕΠΕΡΧΟΜΕΝΕΣ ΕΚΣΤΡΑΤΕΙΕΣ

Δύο εκστρατείες έχουν οργανωθεί από την ομάδα HOBBIΤ, και θα πραγματοποιηθούν στο συνέδριο ESWC 2016 (29 Μαΐου – 2 Ιουνίου).

Παραγωγή και Ανάκτηση πληροφορίας (Generation and Acquisition)

Η πρόκληση Εξόρυξης Ανοιχτής Γνώσης (Open Knowledge Extraction challenge) επικεντρώνεται στην αξιολόγηση δύο εργασιών. Η πρώτη εργασία περιλαμβάνει (1) τον προσδιορισμό των οντοτήτων σε μια φράση (Entity Recognition), (2) τη σύνδεση των οντοτήτων σε μια Γνωσιακή Βάση αναφοράς (Entity Linking) και (3) την ανάθεση τύπου σε οντότητες (Entity Typing). Η εργασία επικεντρώνεται στην ανάθεση των οντοτήτων σε κλάσεις όπως "Πρόσωπο", "Τόπος", "Οργάνωση" και "Ρόλος", σύμφωνα με τη σημασιολογία της οντολογίας DOLCE Ultra Lite [2]. Ωστόσο το έργο GERBIL, όσο και το έργο HOBBIT, εστιάζουν να είναι knowledge base-agnostic ώστε να καλύπτουν μεγαλύτερο εύρος Διασυνδεδεμένων Δεδομένων. Η δεύτερη εργασία, στοχεύει στον προσδιορισμό του τύπου μιας συγκεκριμένης οντότητας ώστε να συναγάγει την πιο κατάλληλη κλάση DOLCE + DNS Ultra Lite που περιέχει αυτό τον τύπο. Τα συστήματα που συμμετέχουν δέχονται κείμενα μικρού μήκους στα οποία μία επώνυμη οντότητα έχει επισημειωθεί.

Οπτική αναπαράσταση και Υπηρεσίες (Visualization and Services)

Η εκστρατεία αξιολόγησης 6th QALD επικεντρώνεται στην απάντηση ερωτήσεων (question answering - QA) πάνω σε διασυνδεδεμένα δεδομένα, με ιδιαίτερή έμφαση στη πολυγλωσσία και στις υβριδικές προσεγγίσεις χρησιμοποιώντας πληροφορία τόσο από δομημένα όσο και από μη δομημένα δεδομένα. Το έργο GERBIL θα μπορέσει να μετρήσει όχι μόνο την αποδοτικότητα των συστημάτων QA, αλλά και άλλων υποεργασιών όπως την αναγνώριση υποχρεωτικών ιδιοτήτων, σχέσεων η οντοτήτων. Παρόλο που το QALD-6 θα αξιολογηθεί χρησιμοποιώντας κυρίως την υπάρχουσα διαδικτυακή πύλη, θα παρουσιάσουμε στην κοινότητα την νέα έκδοση GERBIL με σκοπό την ενεργοποίηση συγκρίσιμων, αρχειοθετήσιμων και επικαιροποιημένων πειραμάτων στο ερευνητικό πεδίο των συστημάτων ερώτησης - απάντησης (QA).

Τα αποτελέσματα αυτών των εκστρατειών θα μας επιτρέψουν να εκτιμήσουμε τα συστατικά αξιολόγησης που αναπτύσσονται μέσα στην πλατφόρμα HOBBIT. Για περισσότερες πληροφορίες, ενταχτείτε στην HOBBIT κοινότητα μας!

ΣΧΕΤΙΚΑ ΜΕ ΤΟ HOBBIT

Το έργο HOBBIT χρηματοδοτείται από το πρόγραμμα-πλαίσιο της Ευρωπαϊκής Ένωσης Horizon 2020 και ξεκίνησε την 1η Δεκεμβρίου του 2015. Η κοινοπραξία αποτελείται από τους ακόλουθους οργανισμούς και εταιρείες: Institute for Applied Informatics (InfAI) e.V. (Συντονιστής του έργου, Γερμανία), Fraunhofer IAIS (Γερμανία), Ίδρυμα Τεχνολογίας και Έρευνας (Ελλάδα), Ε.Κ.Ε.Φ.Ε. Δημόκριτος (Eλλάδα), iMinds (Βέλγιο), USU Software AG(Γερμανία), Ontos AG(Ελβετία), OpenLink Software (Ηνωμένο Βασίλειο), AGT Group R & D GmbH(Γερμανία), και TomTom (Πολωνία). Για περισσότερες πληροφορίες, δείτε το http://project-hobbit.eu

[1] Usbeck R., et al.. 2015. GERBIL: General Entity Annotator Benchmarking Framework. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15). ACM, New York, NY, USA, 1133-1143.
[2] http://www.ontologydesignpatterns.org/ont/dul/DUL.owl

Search form

HOBBIT Holistic Benchmarking of Big Linked Data