The Art of Visual Editing Μέρος 2: Αναζήτηση

0
The Art of Visual Editing Μέρος 2: Αναζήτηση

Στο Μέρος 1 θέσαμε τις βάσεις για την τέχνη της οπτικής επεξεργασίας, καθορίσαμε την ανάγκη καθορισμού στόχων και ορίσαμε κριτήρια για σπουδαία οπτικά αντικείμενα που ίσως θέλουμε να χρησιμοποιήσουμε. Το επόμενο βήμα είναι ο εντοπισμός υποψήφιων οπτικών αντικειμένων και για αυτό πρέπει να κάνουμε Αναζήτηση.

Τα τελευταία 30 χρόνια βρίσκουμε οπτικά αντικείμενα αναζητώντας αντιστοιχίσεις κειμένου στα «μεταδεδομένα», το περιγραφικό κείμενο που επισυνάπτεται σε οπτικά αντικείμενα που συνήθως εισάγεται από κάποιον… αν όντως έχει εισαχθεί καθόλου. Εάν έχετε μια βάση δεδομένων ακίνητων εικόνων με εκτενή μεταδεδομένα που δημιουργούνται από τον άνθρωπο, μπορεί να έχετε κάνει εντάξει. ήταν απογοητευτικό ή ακόμα και αδύνατο: απλά δεν μπορείτε να βρείτε τα κρυμμένα πετράδια. Τίποτα δεν σκοτώνει τη δημιουργικότητα πιο γρήγορα από την απογοήτευση στην αρχή ενός έργου.

Αναζήτηση Κατηγοριών

Η αναζήτηση γενικά εμπίπτει σε μία από τις δύο κατηγορίες ή σε συνδυασμό των δύο. Μια κατηγορία είναι όπου έχετε „Ονομασμένες οντότητες“ που συνήθως συσχετίζονται με ορισμένους περιγραφικούς όρους, δηλ. αναζητάτε ένα συγκεκριμένο άτομο που κάνει κάτι ή ένα συγκεκριμένο ορόσημο, όπως „Ο Έλον Μασκ βγαίνει από ένα αυτοκίνητο“ ή „Empire State Building με κόκκινα και πράσινα φώτα για τα Χριστούγεννα».

Εάν υπάρχουν μεταδεδομένα (σπάνια στο βίντεο, καθώς κανείς δεν πληκτρολογεί περιγραφές κάθε σκηνής, αλλά είναι δυνατό σε στιγμιότυπα), τότε το όνομα „Elon Musk“ μπορεί να εμφανίζεται σε μια λεζάντα. Τι γίνεται όμως αν η λεζάντα λέει, «φθάνει στο εργοστάσιο της Tesla» αντί για «βγαίνει από ένα αυτοκίνητο»; Η αναζήτησή σας για το «Elon Musk gets from a car» θα αποτύχει. Ωστόσο, αυτή η ίδια αναζήτηση θα επέστρεφε ένα αποτέλεσμα για μια εικόνα με μια λεζάντα όπως, „Ο γερουσιαστής Smith βγαίνει από το αυτοκίνητο κατά την άφιξή του για μια ακρόαση για τον Elon Musk“, και πάλι, μια αποτυχία! Ομοίως, η λεζάντα για τη φωτογραφία του Empire State Building μπορεί να λέει: „Το Empire State Building είναι λουσμένο από εποχιακό φωτισμό διακοπών… .“ Έτσι, εάν οι όροι αναζήτησής σας δεν περιέχουν τους ακριβείς (ή εξαιρετικά παρόμοιους) όρους που χρησιμοποιούνται στα μεταδεδομένα, θα αποτύχετε να βρείτε αυτό που ψάχνετε. Πιθανότατα, θα πρέπει να κάνετε ανόητο το ερώτημα (στο „Elon Musk“ ή „Empire State Building“) και στη συνέχεια να ελέγξετε τα αποτελέσματα αναζήτησης με μη αυτόματο τρόπο.

Η δεύτερη κατηγορία αναζήτησης είναι όπου πρέπει να απεικονίσετε μια ιδέα ή ένα συναίσθημα, όπως „εναλλακτική ενέργεια“ ή „χαμογελαστή γυναίκα έξω τρέχοντας“. Οι αναζητήσεις μεταδεδομένων είναι εμφανώς φτωχές σε αυτά, επειδή εάν υπάρχουν μεταδεδομένα θα μπορούσε να πει, «Ο Επίτροπος Ενέργειας αναζητά έναν βιώσιμο εναλλακτικό τρόπο για να επιστρέψει στο σπίτι…» ή «Η Λίζα Σμιθ προθερμαίνεται για έναν αγώνα 10 χιλιάδων» και στα δύο παραδείγματα αυτές οι αναζητήσεις μεταδεδομένων θα αποτύχουν. Η «οπτική κατανόηση» της σκηνής δεν αποτυπώνεται σχεδόν ποτέ στα μεταδεδομένα.

Αξιοποίηση της τεχνητής νοημοσύνης για εξαιρετική οπτική αναζήτηση

Θα ήθελα να προσπαθήσω να υποστηρίξω ότι η παραδοσιακή αναζήτηση μόνο μεταδεδομένων, χωρίς τη χρήση πρόσφατων εξελίξεων τεχνητής νοημοσύνης, μας έχει σακατέψει και έχει εμποδίσει την ικανότητά μας να κάνουμε εξαιρετική οπτική αφήγηση ιστοριών: είμαστε τόσο συνηθισμένοι σε αυτό που δεν το κάνουμε δείτε τους περιορισμούς που μας έχει επιβάλει από την πρώτη μέρα. Ακόμα κι αν πιστεύετε ότι τα μεταδεδομένα σας είναι εξαιρετικά και σας έχουν δώσει καλά αποτελέσματα, θα έλεγα ότι δεν μπορείτε να ξέρετε τι χάνετε. Ας δούμε τα παραπάνω παραδείγματα.

AI Visual Search

Τι θα γινόταν αν είχατε έναν λαμπρό 13χρονο ανιψιό ή ανιψιά που περνούσαν τη ζωή τους κοιτάζοντας κάθε οπτικό στοιχείο στο διαδίκτυο και είχαν τέλεια ανάκληση; Πιστεύετε ότι θα είχαν μια αρκετά σαφή κατανόηση ότι η «εναλλακτική ενέργεια» μπορεί να περιλαμβάνει ηλιακά κύτταρα, ανεμογεννήτριες, οχήματα με ηλιακή ενέργεια και πινακίδες «Χωρίς Ρύπανση»; Ομοίως, θα ήταν εύκολο να αναγνωρίσουν μια «χαμογελαστή γυναίκα που τρέχει» Και θα μπορούσαν επίσης να αναγνωρίσουν σχετικά διάσημα άτομα ή μέρη, όπως ο Έλον Μασκ ή το Empire State Building.

Θυμάστε νωρίτερα όταν είπαμε ότι μπορεί να λάβετε 2.000+ εικόνες από έναν γάμο ή μια εταιρική ή ειδησεογραφική εκδήλωση; Φανταστείτε αυτό (άθετο λογοπαίγνιο): αρχίζετε να ψάχνετε σε αυτές τις εικόνες για την «καλύτερη» από κάποιον που μιλάει (ή χορεύει ή οτιδήποτε άλλο), περνώντας από σελίδες περίπου 30 κάθε φορά. Μέχρι να τελειώσετε, το μυαλό σας συνεχίζει να επιστρέφει σε κάτι που πραγματικά σας εντυπωσίασε επειδή είχε ένα έντονο κόκκινο πανό στο φόντο που πραγματικά τράβηξε την προσοχή σας. Το πρόβλημα είναι ότι πιστεύετε ότι ήταν κάπου στις πρώτες 15 ή 20 σελίδες, οπότε τώρα πρέπει να πάτε και να ψάξετε ξανά. Τι θα γινόταν αν μπορούσατε απλώς να περιγράψετε τη σκηνή, προσθέτοντας „με έντονο κόκκινο πανό“ και ο έξυπνος 13χρονος βοηθός σας (που μπορεί να ψάξει οπτικά και ξέρει τι εννοείτε με „έντονο κόκκινο πανό“) θα σας έφερνε απευθείας στην εικόνα θέλεις?

Αυτό το λαμπερό 13χρονο παιδί είναι ο τρόπος με τον οποίο προσωποποιούμε την οπτική μας αναζήτηση στο NOMAD AI. Είναι σαφές λοιπόν ότι υπάρχει η δυνατότητα για ένα μοντέλο AI εκπαιδευμένο στο εύρος του οπτικού περιεχομένου του Διαδικτύου να γνωρίζει θέματα κοινής λογικής που μπορεί να αναζητήσουμε!

Αναγνώριση προσώπου AI

Τι θα συμβεί αν το άτομο στην αναζήτησή σας δεν είναι τόσο διάσημο, αλλά σημαντικό στην εταιρεία σας, όπως ο Διευθύνων Σύμβουλός σας, ένας κοσμήτορας κολεγίου ή ένας μεγάλος δωρητής; Και ας πούμε ότι δυστυχώς, δεν υπάρχουν σχεδόν λεζάντες στις στατικές εικόνες και τα βίντεο στο σύστημα DAM σας. Εάν είχατε μια μηχανή τεχνητής νοημοσύνης που μπορεί να αναγνωρίσει πρόσωπα και της είπατε σε μια συγκεκριμένη εικόνα ότι το άτομο στα αριστερά ήταν η διευθύνουσα σύμβουλός σας Σούζαν Σμιθ, θα μπορούσε η οπτική μηχανή τεχνητής νοημοσύνης να αναγνωρίσει τη Σούζαν Σμιθ σε όλες τις άλλες εικόνες και βίντεό σας και να προσθέσει το όνομά της στα μεταδεδομένα για το καθένα, καθιστώντας τα εύκολα ανιχνεύσιμα; Θα ήταν μεγάλη βοήθεια σε μελλοντικές αναζητήσεις; Πόσο χρόνο θα εξοικονομούσε από το να περάσετε χιλιάδες εικόνες και να επισημάνετε με μη αυτόματο τρόπο τη Susan Smith σε κάθε εμφάνιση;

AI Visual Similarity

Τι θα γινόταν αν βρείτε μια φωτογραφία ή ένα βίντεο που ταίριαζε πολύ, αλλά όχι απόλυτα με αυτό που ψάχνετε; Τι θα γινόταν αν μια άλλη μηχανή τεχνητής νοημοσύνης σας επέτρεπε να αναζητήσετε „περισσότερα σαν αυτό“ που σημαίνει οπτικά αντικείμενα που μοιάζουν πολύ με την επιλογή σας; Δεν θα μπορούσε να σας βρει διαφορετικά αντικείμενα που δεν μπορούν να ανακαλυφθούν που μπορεί να είναι τέλεια για το έργο σας, αλλά μπορεί να μην έχουν αρκετά μεταδεδομένα για να τα βρείτε με μια παραδοσιακή αναζήτηση μόνο για μεταδεδομένα;

ΕΠΙΠΤΩΣΗ

Ένα άλλο κοινό πρόβλημα για τους οπτικούς συντάκτες είναι ότι βρίσκουν μια επιλογή υποψήφιων αντικειμένων, αλλά σκίζονται για το ποιο είναι το καλύτερο για χρήση (ρωτήστε με πόσες ώρες αγωνίστηκα για το ποια από τις δύο εικόνες να διαλέξω!). Τι θα γινόταν αν υπήρχε μια μηχανή τεχνητής νοημοσύνης εκπαιδευμένης σε δεκάδες χιλιάδες εικόνες που επιλέχθηκαν από οπτικούς συντάκτες παγκόσμιας κλάσης που είχαν επιφορτιστεί να βρίσκουν υπέροχες εικόνες και φρικτές εικόνες και να τις βαθμολογούν τόσο σε αισθητική όσο και σε τεχνική κλίμακα; Ένα τέτοιο μοντέλο θα μπορούσε να «αναγνωρίσει» τις καλύτερες και τις χειρότερες εικόνες στο σύνολο των υποψηφίων σας, και ποιες είναι οι χειρότερες, και να τις ταξινομήσει με αυτή τη σειρά. Μπορείτε ακόμα, φυσικά, να επιλέξετε ό,τι θέλετε, αλλά η κατάταξη της τεχνητής νοημοσύνης θα σας έδινε μια ένδειξη για το ποιες εικόνες έχουν τον καλύτερο αντίκτυπο και είναι πιο πιθανό να τραβήξουν και να κρατήσουν την προσοχή του θεατή σας.

Η τεχνητή νοημοσύνη φέρνει τεράστιες βελτιώσεις σε σχέση με την αναζήτηση μόνο μεταδεδομένων

Αυτά είναι τέσσερα παραδείγματα τρόπων με τους οποίους η τεχνητή νοημοσύνη μπορεί να βελτιώσει την ανιχνευσιμότητα οπτικών αντικειμένων και να σας βοηθήσει να επιλέξετε τα καλύτερα, ακόμα κι αν έχουν λίγα ή καθόλου μεταδεδομένα ή απλώς έτυχε να επιλέξετε όρους αναζήτησης διαφορετικούς από αυτούς που είχαν τα μεταδεδομένα τους.

Κανένα από αυτά τα παραδείγματα δεν είναι δυνατό με ένα σύστημα που βασίζεται αυστηρά σε μεταδεδομένα.

(Συνέχεια στο Μέρος 3: Εκτέλεση και οπτική αναζήτηση)

Schreibe einen Kommentar