Το ευρωπαϊκό ερευνητικό έργο BlogForever που ολοκληρώθηκε με επιτυχία πρόσφατα με συντονιστή το Τμήμα Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης πραγματοποίησε εφαρμοσμένη έρευνα στον τομέα της αρχειοθέτησης του παγκόσμιου ιστού (web archiving). To έργο ανέπτυξε μια νέα προσέγγιση για την ανάκτηση, διαφύλαξη, ανάλυση και επαναχρησιμοποίηση των δεδομένων των ιστολογίων (blogs), συμβάλλοντας με αυτό τον τρόπο στην καλύτερη κατανόηση και εκμετάλλευση του περιεχομένου τους για ερευνητικούς και εκπαιδευτικούς σκοπούς.
Αρχειοθέτηση του παγκόσμιου ιστού (web archiving) ονομάζεται η διαδικασία συλλογής και αποθήκευσης ιστοσελίδων με σκοπό την διαφύλαξή τους σε ένα ψηφιακό αρχείο, προσβάσιμο για το κοινό και τους ερευνητές. Η αρχειοθέτηση του παγκόσμιου ιστού είναι ένα ζήτημα ύψιστης προτεραιότητας, καθώς αφενός αποτελεί κύριο μέσο της σύγχρονης επικοινωνίας και αφετέρου η μέση διάρκεια ζωής των ιστοσελίδων είναι λιγότερη από 100 ημέρες. Έτσι, καθημερινά εξαφανίζονται από τον παγκόσμιο ιστό εκατομμύρια ιστοσελίδες που παύουν να λειτουργούν για διάφορους λόγους, με αποτέλεσμα να χάνονται πολύτιμες πληροφορίες.
Τα ιστολόγια (blogs) αποτελούν μια ξεχωριστή κατηγορία ιστοσελίδων που έχει γίνει εξαιρετικά δημοφιλής και χρησιμοποιείται ιδιαίτερα τα τελευταία χρόνια για δημοσίευση περιεχομένου και γραπτή επικοινωνία μεταξύ των χρηστών. Ένα επιπλέον χαρακτηριστικό των blogs είναι ο δυναμικός τρόπος λειτουργίας τους και οι συσχετίσεις που αναπτύσσονται μεταξύ τους, δημιουργώντας έτσι ένα μοναδικό δίκτυο πληροφοριών που έχει ιδιαίτερη αξία.
To BlogForever ανέπτυξε μια νέα προσέγγιση για την αρχειοθέτηση προσωπικών ιστολογίων υλοποιώντας μια πρωτοποριακή μέθοδο ανάκτησης δεδομένων που λαμβάνει υπόψη το υπερκείμενο, τα μεταδεδομένα και όλα τα διασυνδεδεμένα αρχεία όπως εικόνες, πολυμέσα, κ.ά. που φιλοξενούνται στα blogs. Το ιδιαίτερο επίτευγμα του BlogForever είναι πως σε αντίθεση με τις παραδοσιακές μεθόδους web archiving που αποθηκεύουν απλώς τις ιστοσελίδες, προχωράει ένα βήμα παραπέρα, αναλύοντας τα δεδομένα και δομώντας τα σύμφωνα με ένα πρότυπο μοντέλο δεδομένων που αναπτύχθηκε στο πλαίσιο του έργου.
Το αποτέλεσμα αυτού του επιτεύγματος είναι πως γίνεται δυνατός ο εντοπισμός με πολύ μεγάλη ακρίβεια σημασιολογικών οντοτήτων στο περιεχόμενο των blogs. Οντότητες όπως συγγραφείς, θέματα, tags, κατηγορίες, σχόλια και πολλά ακόμη στοιχεία εντοπίζονται και αποθηκεύονται ως δομημένη πληροφορία στην ψηφιακό αποθετήριο που υλοποίησε το BlogForever με βάση την πλατφόρμα Invenio του CERN.
Η πλατφόρμα του BlogForever δίνει τη δυνατότητα διαφύλαξης, προβολής, ευρετηρίασης και επαναχρησιμοποίησης του περιεχομένου των blogs με νέους τρόπους, υποστηρίζοντας έτσι τη διεξαγωγή της έρευνας και τη δημιουργία πρωτοποριακών εφαρμογών.
Στο BlogForever συνεργάστηκαν για τριάντα μήνες δώδεκα ευρωπαϊκοί οργανισμοί από έξι χώρες με συντονιστή το Τμήμα Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης. Οι υπόλοιποι οργανισμοί ήταν: CERN (Ελβετία), CyberWatcher (Νορβηγία), Technische Universitat Berlin, Mokono GmbH (Γερμανία), University of Glasgow, University of Warwick, University of London Computer Centre (Ηνωμένο Βασίλειο), SRDC (Τουρκία), ALTEC S.A., Phaistos Networks, Tero S.A. (Ελλάδα).