Επιστημονική ηλεκτρονική βιβλιοθήκη. Λειτουργίες ενεργοποίησης σε νευρωνικά δίκτυα

Λειτουργία ενεργοποίησης

Το σήμα που λαμβάνεται από τον αθροιστή μεταδίδεται στη λειτουργία ενεργοποίησης. Το αποτέλεσμα που λαμβάνεται κατά τον υπολογισμό αυτής της λειτουργίας είναι το σήμα εξόδου του NYRON Y.

Έτσι, εάν ορίσετε τη λειτουργία ενεργοποίησης ως F, το σήμα εξόδου Nyron εξαρτάται από τον φορέα των τιμών εισόδου και το βάρος των συντελεστών βάρους ως εξής:

Y \u003d f (x1 * w1 + x2 * w2 + ... + xn * wn)

Στην πράξη, χρησιμοποιούνται διαφορετικές λειτουργίες ενεργοποίησης για την αλλαγή της συμπεριφοράς του νευρώνα, για παράδειγμα, γραμμικού, κατωφλίου, σιγμού, κλπ. Σκεφτείτε σύντομα για παράδειγμα, μερικές από αυτές τις λειτουργίες. Περαιτέρω περιγραφή θα βρείτε, για παράδειγμα, στο

Λειτουργία γραμμικής ενεργοποίησης

Το γράφημα της γραμμικής λειτουργίας ενεργοποίησης φαίνεται στο ΣΧ. 4-3. Όπως μπορείτε να δείτε, αυτό το γράφημα είναι μια ευθεία γραμμή, η γωνία κλίσης εξαρτάται από τη σταθερά Κ, και την τιμή μετατόπισης κατά μήκος του οριζόντιου άξονα των συντεταγμένων - από τη σταθερά t.

4.

5.

6. Προκειμένου το νευρικό δίκτυο να είναι σε θέση να εκτελέσει την εργασία, πρέπει να εκπαιδευτεί (βλ. Σχήμα 1). Υπάρχουν αλγόριθμοι μάθησης με δάσκαλο και χωρίς δάσκαλο.
Η διαδικασία μάθησης με τον δάσκαλο είναι η παρουσίαση ενός δικτύου παραδειγμάτων δειγματοληψίας. Κάθε δείγμα τροφοδοτείται στις εισόδους του δικτύου, κατόπιν επεξεργάζεται μέσα στη δομή NA, υπολογίζεται το σήμα εξόδου του δικτύου, το οποίο συγκρίνεται με την αντίστοιχη τιμή του φορέα στόχου, η οποία είναι η επιθυμητή έξοδος του δικτύου. Στη συνέχεια, με έναν συγκεκριμένο κανόνα υπολογίζεται ένα σφάλμα και οι συντελεστές στάθμισης αλλάζονται εντός του δικτύου ανάλογα με τον επιλεγμένο αλγόριθμο. Οι εκπαιδευτικοί φορείς παρουσιάζονται διαδοχικά, τα σφάλματα και τα βάρη υπολογίζονται για κάθε φορέα έως ότου ένα σφάλμα σε ολόκληρη τη συστοιχία εκπαίδευσης φθάσει σε ένα αποδεκτό χαμηλό επίπεδο.

Κατά τη μάθηση χωρίς δάσκαλο, ένα σύνολο μάθησης αποτελείται από μόνο φορείς εισόδου. Ο αλγόριθμος κατάρτισης ρυθμίζει το βάρος του δικτύου έτσι ώστε να λαμβάνονται οι συμφωνημένοι φορείς εξόδου, δηλ. Προκειμένου η παρουσίαση επαρκώς στενών φορέων εισόδου, δεδομένων των ίδιων εξόδων. Ως εκ τούτου, η διαδικασία μάθησης κατανέμει τις στατιστικές ιδιότητες της μάθησης και ομαδοποιεί παρόμοιους φορείς στις τάξεις. Η παρουσίαση της εισόδου φορέα από αυτή την τάξη θα δώσει ένα συγκεκριμένο διάνυσμα εξόδου, αλλά είναι αδύνατο να προβλεφθεί η εκπαίδευση, τι θα γίνει μια έξοδος από αυτή την κατηγορία των φορέων εισόδου. Κατά συνέπεια, οι εξόδους ενός τέτοιου δικτύου πρέπει να μετασχηματιστούν σε κάποια κατανοητή μορφή λόγω της μάθησης. Αυτό δεν είναι ένα σοβαρό πρόβλημα. Συνήθως δεν είναι δύσκολο να προσδιοριστεί η σύνδεση μεταξύ της εισόδου και της εξόδου που έχει οριστεί από το δίκτυο.
Για τη διδασκαλία των νευρωνικών δικτύων χωρίς δάσκαλο, εφαρμόζεται μια μέθοδος σήματος κατάρτισης της Hebba και OHA.



Μαθηματικά, η διαδικασία μάθησης μπορεί να περιγραφεί ως εξής. Στη διαδικασία λειτουργίας, το νευρικό δίκτυο δημιουργεί το σήμα εξόδου y, συνειδητοποιώντας κάποια λειτουργία y \u003d g (x). Εάν ορίζεται η αρχιτεκτονική δικτύου, η μορφή της συνάρτησης g καθορίζεται από τις τιμές των συναπτικών κλίμακες και το μετατοπισμένο δίκτυο.

Αφήστε τη λύση ορισμένης εργασίας να είναι η λειτουργία y \u003d f (x), Ορίστε παραμέτρους Είσοδος και έξοδος (x 1, y 1), (x 2, y 2), ..., (xn, yn), για το οποίο yk \u003d f (xk) (k \u003d 1, 2, ..., n) .

Η εκπαίδευση συνίσταται στην αναζήτηση (σύνθεση) της συνάρτησης g, κοντά στο f με την έννοια του αντικειμένου της λειτουργίας σφάλματος Ε. (Βλέπε σχήμα 1.8).

Εάν επιλεγούν μια ποικιλία παραδειγμάτων κατάρτισης - ζεύγη (xn, yn) (όπου k \u003d 1, 2, ..., n) και η μέθοδος υπολογισμού της λειτουργίας σφάλματος e, τότε η εκπαίδευση του νευρικού δικτύου μετατρέπεται σε πρόβλημα Πολυδιάστατη βελτιστοποίηση, έχοντας μια πολύ μεγάλη διάσταση και δεδομένου ότι η λειτουργία Ε μπορεί να έχει έναν αυθαίρετο τύπο εκπαίδευσης στη γενική περίπτωση - ένα πολυκρότο μη αποσυνδεδεμένο πρόβλημα βελτιστοποίησης.

Για την επίλυση αυτού του προβλήματος, μπορούν να χρησιμοποιηθούν οι ακόλουθοι (επαναληπτικοί) αλγόριθμοι:

1. Αλγόριθμοι τοπικής βελτιστοποίησης με τον υπολογισμό των ιδιωτικών παραγώγων της πρώτης τάξης:

· Αλγόριθμος βαθμίδωσης (η μέθοδος προ-ορθοπαραγωγής),

· Μέθοδοι με μονοδιάστατη και δισδιάστατη βελτιστοποίηση της λειτουργίας στόχου προς την κατεύθυνση των αντιγόνων,

· Μέθοδος συζευγμένων κλίσεων,

· Μέθοδοι που λαμβάνουν υπόψη την κατεύθυνση του αντι-αγκαδινθρί λίγα βήματα του αλγορίθμου.

2. Τοπικοί αλγόριθμοι βελτιστοποίησης με τον υπολογισμό των ιδιωτικών παραγώγων της πρώτης και της δεύτερης τάξης:

· Μέθοδος Newton,

· Μέθοδοι βελτιστοποίησης με αραιές μήτρες HESE,

· Μέθοδοι Quasinuton,

· Μέθοδος Gaussa Newton,

· Μέθοδος του Levenberg Marquardt et αϊ.

3. Αλγόριθμοι στοχαστικής βελτιστοποίησης:

· Αναζήτηση σε τυχαία κατεύθυνση

· Απομίμηση ανόπτησης,

· Μέθοδος Monte Carlo (αριθμητική μέθοδος στατιστικής δοκιμής).

4. Οι αλγόριθμοι της παγκόσμιας βελτιστοποίησης (καθήκοντα συνολικής βελτιστοποίησης επιλύονται χρησιμοποιώντας την ακεραιότητα των μεταβλητών τιμών στις οποίες εξαρτάται η λειτουργία στόχου).

7. Νευρικό σύστημα Ή το ανθρώπινο νευρικό σύστημα είναι ένα πολύπλοκο δίκτυο ανθρώπινων κατασκευών, παρέχοντας αλληλοσυνδεδεμένη συμπεριφορά όλων των συστημάτων οργανισμού.

Ο βιολογικός νευρώνας είναι ένα ειδικό κελί που δομικά αποτελείται από ένα πυρήνα, κύτταρο και διαδικασίες. Μία από τις εργασίες του βασικού νευρώνα είναι η μετάδοση ενός ηλεκτροχημικού παλμού σε ολόκληρο το νευρικό δίκτυο μέσω των διαθέσιμων συνδέσεων με άλλους νευρώνες. Επιπλέον, κάθε δεσμός χαρακτηρίζεται από μια συγκεκριμένη τιμή που ονομάζεται συναπτική δύναμη επικοινωνίας. Αυτή η τιμή καθορίζει ότι θα συμβεί με έναν ηλεκτροχημικό παλμό κατά τη μετάδοσή του σε άλλο νευρώνα: είτε θα αυξηθεί, είτε θα αποδυναμωθεί ή παραμείνει αμετάβλητη.

Το βιολογικό νευρικό δίκτυο έχει υψηλό βαθμό συνδεσιμότητας: ένας νευρώνας μπορεί να έχει αρκετές χιλιάδες συνδέσεις με άλλους νευρώνες. Αλλά, αυτή είναι μια κατά προσέγγιση τιμή και σε κάθε περίπτωση είναι διαφορετική. Η μεταφορά παρορμήσεων από έναν νευρώνα σε άλλο δημιουργεί μια ορισμένη διέγερση ολόκληρου του νευρικού δικτύου. Το μέγεθος αυτής της διέγερσης καθορίζει την αντίδραση του νευρικού δικτύου σε ορισμένα σήματα εισόδου. Για παράδειγμα, μια συνάντηση με παλιές οικογένειες μπορεί να οδηγήσει σε μια ισχυρή έναρξη του νευρικού δικτύου, εάν ορισμένες φωτεινές και ευχάριστες αναμνήσεις ζωής συνδέονται με αυτόν τον φίλο. Με τη σειρά του, η ισχυρή διέγερση του νευρικού δικτύου μπορεί να οδηγήσει στην αύξηση του καρδιακού παλμού, πιο συχνή αναλαμπή ματιών και σε άλλες αντιδράσεις. Η συνάντηση με ένα άγνωστο άτομο για το νευρωνικό δίκτυο θα πραγματοποιηθεί σχεδόν δυσδιάκριτες και επομένως δεν θα προκαλέσει ισχυρές αντιδράσεις.

Τα ακόλουθα απλοποιημένα μοντέλα του βιολογικού νευρικού δικτύου μπορούν να δοθούν:

Κάθε νευρώνας αποτελείται από ένα κυτταρικό σώμα που περιέχει τον πυρήνα. Από το σώμα του κελιού, γεννιούνται πολλές βραχείες ίνες, που ονομάζονται δενδρίτες. Οι μακριές δενδρίτες ονομάζονται Axon. Οι άξονες τεντώνονται σε μεγάλες αποστάσεις, πολύ περισσότερο υπερβαίνει το τι φαίνεται στην κλίμακα αυτής της εικόνας. Συνήθως, οι άξονες έχουν μήκος 1 cm (το οποίο υπερβαίνει τα 100 φορές τη διάμετρο του κυτταρικού σώματος), αλλά μπορεί να φτάσει 1 μέτρο.

Στα 60-80 χρόνια του XX αιώνα, η κατεύθυνση προτεραιότητας της έρευνας στον τομέα της τεχνητής νοημοσύνης ήταν Συστήματα εμπειρογνωμόνων. Τα συστήματα εμπειρογνωμόνων έχουν αποδειχθεί καλά, αλλά μόνο σε εξειδικευμένους τομείς. Για να δημιουργηθούν περισσότερα καθολικά έξυπνα συστήματα, απαιτείται άλλη προσέγγιση. Πιθανώς, αυτό οδήγησε στο γεγονός ότι οι ερευνητές της τεχνητής νοημοσύνης επέστησαν την προσοχή στα βιολογικά νευρωνικά δίκτυα που υπογραμμίζουν τον ανθρώπινο εγκέφαλο.

Τα νευρωνικά δίκτυα στην τεχνητή νοημοσύνη απλοποιούν τα μοντέλα βιολογικών νευρωνικών δικτύων.

Αυτή η ομοιότητα τελειώνει. Η δομή του ανθρώπινου εγκεφάλου είναι πολύ πιο περίπλοκη από τα παραπάνω που περιγράφηκε παραπάνω και επομένως δεν είναι δυνατόν να το αναπαραχθούν τουλάχιστον λιγότερο.

Τα νευρωνικά δίκτυα έχουν πολλές σημαντικές ιδιότητες, αλλά το κλειδί από αυτά είναι η δυνατότητα να μάθουν. Η εκπαίδευση του νευρικού δικτύου αποτελείται κυρίως στην αλλαγή της "δύναμης" των συναπτικών δεσμών μεταξύ των νευρώνων. Το παρακάτω παράδειγμα το αποδεικνύει σαφώς. Στην κλασική εμπειρία του Pavlov, κάθε φορά που το κουδούνι χτύπησε το κουδούνι πριν σηκώσει το σκυλί. Ο σκύλος έμαθε γρήγορα να συσχετίζει ένα κουδούνι με πρόσληψη τροφής. Αυτό ήταν συνέπεια του γεγονότος ότι οι συναπτικές δεσμοί μεταξύ των εγκεφαλικών περιοχών που είναι υπεύθυνοι για την ακρόαση και τα σιελογόνες αδένες εντατικοποιήθηκαν. Και στην επακόλουθη διέγερση του νευρικού δικτύου του ήχου του κουδουνιού, άρχισε να οδηγεί σε μια ισχυρότερη σιεληνοποίηση του σκύλου.

Μέχρι σήμερα, τα νευρικά δίκτυα είναι ένας από τους τομείς προτεραιότητας των σπουδών στον τομέα της τεχνητής νοημοσύνης.

8. Πολυστρωματικές αντιλήψεις Καλέστε τα νευρικά δίκτυα άμεση διανομή. Το σήμα εισόδου σε τέτοια δίκτυα κατανέμεται απευθείας από το στρώμα στο στρώμα. Το πολυστρωματικό αντίχειρα στη γενική παρουσίαση αποτελείται από τα ακόλουθα στοιχεία:

· Σετ κόμβων εισόδου που σχηματίζουν το στρώμα εισόδου.

· Ένα ή περισσότερα κρυμμένα στρώματα των υπολογιστικών νευρώνων.

· Ένα στρώμα εξόδου των νευρώνων.

Το πολυστρωματικό αντίχειρο είναι μια γενίκευση του μονο-στρώματος perseceptron του rosenblatt. Ένα παράδειγμα ενός πολυστρωματικού στροφείου είναι το ακόλουθο μοντέλο του νευρικού δικτύου:

Ο αριθμός των στοιχείων εισόδου και εξόδου σε μια πολυστρωματική αντίληψη καθορίζεται από τις συνθήκες του προβλήματος. Οι αμφιβολίες μπορεί να προκύψουν σε σχέση με τον τρόπο χρήσης και τα οποία δεν είναι. Το ζήτημα του πόσο χρήσιμο τα ενδιάμεσα στρώματα και τα στοιχεία σε αυτά είναι εντελώς ασαφή. Ως αρχική προσέγγιση, μπορεί να ληφθεί ένα ενδιάμεσο στρώμα και ο αριθμός των στοιχείων σε αυτό πρέπει να είναι ίσος με το μισό ως τον αριθμό των στοιχείων εισόδου και εξόδου.

Οι πολυστρωματικές αντιλήψεις χρησιμοποιούνται με επιτυχία για την επίλυση μιας ποικιλίας πολύπλοκων καθηκόντων και έχουν τα ακόλουθα τρία διακριτικά χαρακτηριστικά.

Θα είναι η δυνατότητα ενός ατόμου να διαχειριστεί τη συμπεριφορά του, να κινητοποιήσει τη δύναμή του για να ξεπεράσει τις δυσκολίες στο δρόμο προς το στόχο. Όχι οι πράξεις ενός ατόμου είναι θεμελιώδεις. Οι ενέργειες που δεν σχετίζονται με συνειδητή στόχο και ξεπερνώντας τις δυσκολίες (για παράδειγμα, η στροφή στροφή σε ένα απότομο ή απροσδόκητο ήχο) είναι ακούσια. Οι αυθαίρετες ενέργειες προτείνουν πάντα την ευαισθητοποίηση ευαισθητοποίησης, την εκπροσώπηση αυτών των ενεργειών με τις οποίες μπορεί να επιτευχθεί. Αυτές είναι συνειδητές δράσεις που στοχεύουν σε ένα συγκεκριμένο στόχο και σχετίζονται με την υπέρβαση των δυσκολιών που αντιμετωπίζουν ένα άτομο στην πορεία προς το στόχο.

Στην ψυχική δραστηριότητα του ανθρώπου, η θα εκτελεί δύο αλληλένδετες λειτουργίες - ενεργοποιώντας και πέδηση. Η λειτουργία ενεργοποίησης εκδηλώνεται στο γεγονός ότι η βούληση επιτρέπει σε ένα άτομο να κινητοποιήσει τις εσωτερικές δυνάμεις του και να τις κατευθύνει σε ενεργούς δραστηριότητες για να επιτύχει ένα συνειδητά καθορισμένο στόχο. Το θα εξασφαλίσει τη μετάβαση από τη γνώση και τις εμπειρίες ενός ατόμου σε πρακτική δραστηριότητα σύμφωνα με τις ανάγκες, τις προθέσεις, τα συμφέροντά τους. Ταυτόχρονα, με τη βοήθεια όλων των προσπαθειών, ένα άτομο ρυθμίζει τη συμπεριφορά του, εμποδίζει την εμφάνιση τέτοιων κινήτρων και την εφαρμογή τέτοιων ενεργειών που δεν την αντιμετωπίζουν με ιδανικά, πεποιθήσεις που απαιτούνται. Αυτή είναι η έκφραση της πέδησης, του ελέγχου, του ελέγχου συμπεριφοράς.

Οι φυσιολογικές βάσεις του θα συνθέτουν την αλληλεπίδραση του πρώτου και του δεύτερου συστήματος σηματοδότησης του εγκεφαλικού φλοιού. Χρησιμοποιώντας, κυρίως, το πρώτο σύστημα σήματος αντανακλάται άμεσα στο περιβάλλον, τις συνθήκες ανθρώπινης δραστηριότητας. Η τοποθέτηση του στόχου, η σκέψη με τρόπους επίτευξης, συνειδητών προσπαθειών, ξεπερνώντας τις δυσκολίες, η διαχείριση των ίδιων βασίζεται στη δραστηριότητα του δεύτερου συστήματος σήματος. Στην ενότητα και την αλληλεπίδραση αυτών των δύο συστημάτων, το δεύτερο σύστημα σήματος διαδραματίζει ηγετικό ρόλο. "Ο άνθρωπος", ο Ι.Π. Pavlov είπε: "Πρώτα απ 'όλα, αντιλαμβάνεται την πραγματικότητα μέσω του πρώτου συστήματος σηματοδότησης, τότε γίνεται ο πλοίαρχος της πραγματικότητας μέσω του δεύτερου συστήματος σηματοδότησης (λέξη, ομιλία, επιστημονική σκέψη)."

Όταν εκτελείται μια εκδοτική δράση, πολύπλοκες διεργασίες διέγερσης και πέδησης εμφανίζονται στον φλοιό του εγκεφάλου. Ο ενθουσιασμός σας επιτρέπει να ενεργοποιήσετε, η πέδηση είναι για την καθυστέρηση των λέξεων και των κινήσεων. Η δύναμη και η ισορροπία του νεύρου του φλοιού του εγκεφάλου (πρώτης και δεύτερης συστημάτων σήματος) τη βάση της ρύθμισης της ανθρώπινης συμπεριφοράς.

Η βασιζόμενη διαδικασία συνδέεται στενά με όλες τις άλλες πλευρές της ανθρώπινης ψυχής: προσοχή, σκέψη, φαντασία, μνήμη, συναισθήματα, ιδιοσυγκρασία, ικανότητες, χαρακτήρα. "Volya", i.m. schenov έγραψε, "δεν υπάρχει ένας επικείμενος πράκτορας κρούσης, που διαθέτει μόνο από το κίνημα, είναι η ενεργός πλευρά του νου και η ηθική αίσθηση".

Ένα άτομο ξεπερνά ένα εμπόδιο όχι μόνο χάρη στη θέληση και επηρεαστεί από τις ανάγκες, τα συναισθήματα, την εμπειρία, τη γνώση, τις συνήθειες. Ως εκ τούτου, είναι αδύνατο να εξεταστεί το μόνο κριτήριο της θέλησης των δυσκολιών. Οι ιδιαιτερότητες της θερολικής πνευματικής διαδικασίας συνίστανται σε συνειδητές προσπάθειες που αποσκοπούν στην ενεργοποίηση όλων των ευκαιριών για την επίτευξη του στόχου.

Κάθε εργατική δράση έχει μια συγκεκριμένη εσωτερική δομή. Στην απλή διατήρηση, δύο επίπεδα διακρίνονται σαφώς - ο σκοπός του στόχου και της εκτέλεσης. Η δράση που αποσκοπεί στην επίτευξη του στόχου πραγματοποιείται αμέσως, μόλις προκύψει το κατάλληλο κίνητρο. Οι ενδιάμεσοι σύνδεσμοι λείπουν εδώ.

Μια πολύπλοκη εργαστηριακή δράση περιλαμβάνει: συνειδητοποίηση του στόχου, τη σημασία του. ο ορισμός των τρόπων επίτευξης του στόχου των καταλληλότερων τρόπων δράσης · λήψη αποφάσης; εκτέλεση Έλαβε, να εκπληρώσει την εργασία. Αξιολόγηση.

Οποιαδήποτε βασική δράση περιλαμβάνει την ύπαρξη ενός στόχου που προκύπτει μπροστά από ένα άτομο. Με άλλα λόγια, ένα άτομο γνωρίζει αυτό που θέλει να επιτύχει μέσω ορισμένων ενεργειών - να αλλάξει τη θέση της στην ομάδα, να ικανοποιεί ορισμένες ανάγκες κ.λπ. Ο στόχος στον άνθρωπο προκύπτει είτε ως αποτέλεσμα της πραγματοποίησης εσωτερικών κινήσεων (μοτίβα), ή ευαισθητοποίηση του έργου, που παρέχεται από τον αρχηγό, τον διοικητή. Ένα σημαντικό ψυχολογικό πρόβλημα εδώ είναι μια βαθιά συνειδητοποίηση ενός ατόμου ανάγκης να εκπληρώσει αυτό το καθήκον, το μετατρέποντάς το σε έναν εσωτερικά υιοθετημένο στόχο, την εμφάνιση της επιθυμίας να το επιτύχουμε.

Ο επόμενος σύνδεσμος της εργασιακής δράσης είναι να σκεφτούμε πώς να επιτύχετε το στόχο, τι πρέπει να είναι ο τρόπος για να το επιτύχουμε, τι είδους δράσεις οδηγούν σε αυτό. Ταυτόχρονα, μερικές φορές ζυγίζεται από τη σκοπιμότητα ενός ή ενός άλλου, η επιλογή των εργαλείων που κάνουν την πραγματική επίτευξη του στόχου. Όλα αυτά οφείλονται στην πνευματική ανθρώπινη δραστηριότητα. Συχνά επηρεάζεται από την παρακινητική σφαίρα της προσωπικότητας, προκύπτει η πάλη των κινήτρων, δηλ. Η σύγκρουση των αντιτιθέμενων, ασυνείδητων κινήτρων, μεταξύ των οποίων η επιλογή θα έχει. Και εδώ το άτομο πρέπει να αποδείξει μια αξιοπρεπή προσπάθεια να ξεπεράσει τον αγώνα αντιφατικών κινήτρων.

Ο βασικός σύνδεσμος της δεξιότητας είναι να αποφασιστεί η εφαρμογή αυτής της δράσης, με την οποία να επιτύχει το στόχο. Για να λάβετε μια απόφαση, όχι μόνο η μέγιστη συνείδηση, αλλά και αποφασιστικότητα, απαιτείται ευθύνη προσωπικότητας. Με τη λήψη αποφάσεων, κατά κανόνα, έρχεται η απόρριψη, αποδυναμώνει το άγχος που συνοδεύει τον αγώνα των κινήτρων. Ένα άτομο αντιμετωπίζει πλήρη ανακούφιση, μια αίσθηση ικανοποίησης, όλες οι ταλαντώσεις και το εσωτερικό άγχος καταργούνται, εάν η απόφαση έχει κάνει τις επιθυμίες της, σκέψεις. Αλλά η ανακούφιση έρχεται και στη συνέχεια όταν η απόφαση δεν συμβαδίζει πλήρως με τις επιθυμίες και τις προσδοκίες ενός ατόμου. Η τάση μειώνει το ίδιο το γεγονός της απόφασης.

Η εκτέλεση της λύσης είναι το κύριο μέρος της εργασιακής ενέργειας. Συνδέεται πάντοτε με την υπέρβαση εξωτερικών και εσωτερικών δυσκολιών. Οι εξωτερικές, αντικειμενικές δυσκολίες δεν εξαρτώνται από τον ίδιο τον άνθρωπο. Αυτές είναι δυσκολίες στην εργασία, η πολυπλοκότητα των εργασιών που εκτελούνται, απαιτώντας μεγάλες σωματικές προσπάθειες, την αντίσταση άλλων ανθρώπων, καιρού και κλιματολογικών συνθηκών κλπ. Οι εγχώριες, υποκειμενικές δυσκολίες εξαρτώνται από τη σωματική και ψυχική κατάσταση του ατόμου. Αυτές περιλαμβάνουν την έλλειψη γνώσης, την εμπειρία, την αντίφαση μεταξύ των πρώτων συνηθειών και των νέων απαιτήσεων κλπ. Στις περισσότερες περιπτώσεις, οι εξωτερικές και εσωτερικές δυσκολίες εκδηλώνονται στην ενότητα.

Για να ξεπεραστούν αυτές τις δυσκολίες, απαιτείται μια συνολική δύναμη, η οποία χαρακτηρίζεται από την ποσότητα ενέργειας που δαπανώνται από ένα άτομο να εκτελέσει μια εστιασμένη δράση ή αφαίρεση από αυτήν. Η αξιοπρεπή προσπάθεια διαπερνά όλους τους δεσμούς της πώλησης του νόμου - συνειδητοποίηση του στόχου, τον ορισμό των τρόπων επίτευξής της, λήψης αποφάσεων. Αλλά εκδηλώνεται ιδιαίτερα στη διαδικασία εκτέλεσης μιας απόφασης, στην καταπολέμηση των δυσκολιών. Ανάλογα με την ανθρώπινη ικανότητα να παρουσιάσουν τις εκδηλώσεις για να κρίνουν τις ιδιαιτερότητες της θέλησής του.

Ένας σημαντικός τόπος στην ψυχολογική δομή μιας εργαλτικής δράσης καταλαμβάνει αξιολόγηση. Ακόμη και στη διαδικασία δραστηριότητας, ένα άτομο ελέγχει και προσαρμόζει τις ενέργειές της. Σε κάθε στιγμή, συγχωνεύει το αποτέλεσμα που προκύπτει με έναν ιδανικό τρόπο στόχο (ή τα μέρη του), η οποία δημιουργήθηκε εκ των προτέρων. Στο τελικό στάδιο της δραστηριότητας, η αξιολόγηση των αποτελεσμάτων της, η ανάλυση της διαδικασίας επίτευξης αποκτάται από ανεξάρτητη αξία. Είναι απαραίτητο να εντοπιστεί και να ληφθεί υπόψη στο μέλλον τόσο θετικά όσο και μειονεκτήματα στις ανθρώπινες ενέργειες.

Μια ιδιαίτερα σημαντική διατήρηση (ηρωική πράξη, κατόρθωμα) δεσμεύεται ως βιασύνη σε ένα εξαιρετικά μικρό χρονικό διάστημα κατά την κινητοποίηση των δυνάμεων όλων. Υπό τις συνθήκες αυτές, όλοι οι σύνδεσμοι της εργασιακής δράσης φαίνεται να συγχωνεύονται μαζί, αμοιβαία διαπιστωθεί ο ένας τον άλλον. Η συνειδητοποίηση του στόχου, της λήψης αποφάσεων, του προγράμματος δράσης, ο ορισμός των τρόπων επίτευξης του στόχου εδώ είναι αλληλένδετος σε άμεσες πρακτικές ενέργειες ενός προσώπου. Τις περισσότερες φορές συμβαίνει σε κατάσταση έκτακτης ανάγκης: Σε μια κατάσταση μάχης, στη σωτηρία της ζωής των ανθρώπων, με φυσικές ενέργειες, ατυχήματα, καταστροφές κλπ.

Στο δεύτερο μέρος του άρθρου, συνεχίζουμε να συζητούμε τις λεπτότητες της βαθιάς μάθησης.

5. Επιλογή λειτουργιών ενεργοποίησης

Μια από τις πιο σημαντικές πτυχές ενός βαθιού νευρωνικού δικτύου είναι Λειτουργία ενεργοποίησης (Λειτουργία ενεργοποίησης), η οποία φέρνει στο δίκτυο Μη γραμμικότητα. Στη συνέχεια, θεωρούμε τις κοινές λειτουργίες ενεργοποίησης και δίνουν συστάσεις για την επιλογή τους.

Σιγμοειδής

Το Sigmoid (Sigmoid) εκφράζεται από τον ακόλουθο τύπο: Σ (x) \u003d 1 / (1 + e -x). Αυτή η λειτουργία παίρνει έναν αυθαίρετο πραγματικό αριθμό στην είσοδο και στην έξοδο δίνει έναν πραγματικό αριθμό στην περιοχή από το 0 έως το 1. ειδικότερα, οι μεγάλες (μονάδες) αρνητικούς αριθμούς μετατρέπονται σε μηδέν και μεγάλο θετικό - σε ένα. Ιστορικά, το Sigmoid έχει χρησιμοποιηθεί ευρέως, καθώς η παραγωγή της ερμηνεύεται καλά ως το επίπεδο ενεργοποίησης του νευρώνα: από την έλλειψη ενεργοποίησης (0) στην πλήρη πλούσια ενεργοποίηση (1).

Προς το παρόν, το Sigmoid έχει χάσει τη δική του δημοτικότητα και είναι πολύ σπάνια χρησιμοποιείται. Αυτή η λειτουργία έχει δύο σοβαρά μειονεκτήματα:

  1. Ο κορεσμός του Sigmoid οδηγεί στην εξασθένηση των βαθμίδων. Η εξαιρετικά ανεπιθύμητη ιδιότητα του σιγμοειδούς είναι ότι όταν κορεσθεί η λειτουργία από τη μία ή άλλη πλευρά (0 ή 1), η κλίση σε αυτές τις θέσεις γίνεται κοντά στο μηδέν. Θυμηθείτε ότι στη διαδικασία αντίστροφης διάδοσης του σφάλματος, αυτή η (τοπική) κλίση πολλαπλασιάζεται με μια κοινή κλίση. Επομένως, εάν η τοπική κλίση είναι πολύ μικρή, πραγματικά επαναφέρει τη γενική κλίση. Ως αποτέλεσμα, το σήμα σχεδόν δεν θα περάσει από τον νευρώνα στα βάρη του και αναδρομικά στα δεδομένα του. Επιπλέον, θα πρέπει να είναι πολύ προσεκτική όταν αρχίζετε τις κλίμακες των sigmoid νευρώνες για να αποφευχθεί ο κορεσμός. Για παράδειγμα, εάν τα βάρη πηγής έχουν πολύ μεγάλες τιμές, οι περισσότεροι νευρώνες μπαίνουν σε κατάσταση κορεσμού, ως αποτέλεσμα της οποίας το δίκτυο θα είναι κακώς εκπαιδευμένο.
  2. Η έξοδος του Sigmoid δεν επικεντρώνεται σε σχέση με το μηδέν. Αυτή η ιδιότητα είναι ανεπιθύμητη, δεδομένου ότι οι νευρώνες σε επόμενα στρώματα θα λαμβάνουν τιμές που δεν επικεντρώνονται σε σχέση με το μηδέν, το οποίο επηρεάζει τη δυναμική καταγωγή κλίσης (Κλίση καταγωγής). Εάν οι τιμές που εισέρχονται νευρώνες είναι πάντα θετικοί (για παράδειγμα, x\u003e 0. Βασικά Β. f \u003d Ω t x + b), στη συνέχεια στη διαδικασία επιστροφής σφάλματος όλες τις κλίσεις των ζυγών ω θα είναι είτε θετικό είτε αρνητικό (ανάλογα με την κλίση ολόκληρης της έκφρασης ΦΑ.). Αυτό μπορεί να οδηγήσει σε ανεπιθύμητη δυναμική ζιγκ-ζαγκ με ενημερώσεις βάρους. Ωστόσο, πρέπει να σημειωθεί ότι όταν αυτές οι κλίσεις συνοψίζονται σε ένα πακέτο, η τελική ενημέρωση των βαρών μπορεί να έχει διαφορετικά σημάδια που εν μέρει επίπεδα το περιγραφόμενο μειονέκτημα. Έτσι, η έλλειψη κεντραρίσματος είναι η ταλαιπωρία, αλλά έχει λιγότερο σοβαρές συνέπειες, σε σύγκριση με το πρόβλημα του κορεσμού.

Υπερβολική εφαπτομένη

Η υπερβολική τάξηση (υπερβολική εφαπτομένη, tanh) παίρνει έναν αυθαίρετο πραγματικό αριθμό στην είσοδο και στην έξοδο δίνει έναν πραγματικό αριθμό στην περιοχή από -1 έως 1. όπως ένα σιγμοειδές, υπερβολική εφαπτομένη μπορεί να είναι κορεσμένη. Ωστόσο, σε αντίθεση με το Sigmoid, η έξοδος αυτής της λειτουργίας επικεντρώνεται σε σχέση με το μηδέν. Επομένως, στην πράξη, είναι πάντοτε προτιμότερο να χρησιμοποιηθεί μια υπερβολική εφαπτομένη και όχι ένα σιγμοειδές.

Relu.

Τα τελευταία χρόνια, το χαρακτηριστικό ενεργοποίησης που ονομάζεται "ανορθωτής" (ανορθωτής, κατ 'αναλογία με ένα μονο-φιλονογόνο ανορθωτή στην ηλεκτρική μηχανική) έχει αποκτήσει μεγάλη δημοτικότητα. Οι νευρώνες με αυτή τη λειτουργία ενεργοποίησης ονομάζονται Relu (διορθωμένη γραμμική μονάδα). Το Relu έχει τον ακόλουθο τύπο f (x) \u003d max (0, x) Και εφαρμόζει ένα απλό όριο στο μηδέν.

Εξετάστε τις θετικές και αρνητικές πλευρές του Relu.

Θετικές πλευρές:

  1. Ο υπολογισμός του σιγμοειδούς και της υπερβολικής εφαπτομενικής απαντήσεως απαιτεί την εφαρμογή λειτουργιών έντασης πόρων, όπως η άσκηση, ενώ η Relu μπορεί να εφαρμοστεί χρησιμοποιώντας μια απλή μετατροπή κατωφλίου της μήτρας ενεργοποίησης στο μηδέν. Επιπλέον, το Relu δεν είναι κορεσμένο.
  2. Η χρήση του Relu αυξάνει σημαντικά τον ρυθμό σύγκλισης μιας στοχαστικής κατάβασης βαθμίδωσης (σε ορισμένες περιπτώσεις έως και 6 φορές) σε σύγκριση με τη σιγμοειδή και υπερβολική εφαπτομένη. Πιστεύεται ότι αυτό οφείλεται στον γραμμικό χαρακτήρα και την απουσία κορεσμού αυτής της λειτουργίας.

Αρνητικές πλευρές:

  1. Δυστυχώς, το Relu δεν είναι πάντα αρκετά αξιόπιστο και στη διαδικασία μάθησης μπορεί να αποτύχει ("πεθαίνει"). Για παράδειγμα, μια μεγάλη βαθμίδα που διέρχεται από το Relu μπορεί να οδηγήσει σε μια τέτοια ενημέρωση των ζυγών που ο νευρώνας δεν ενεργοποιείται ποτέ. Εάν συμβεί αυτό, τότε, ξεκινώντας από αυτό το σημείο, η κλίση που διέρχεται από αυτόν τον νευρώνα θα είναι πάντα μηδέν. Συνεπώς, αυτός ο νευρώνας θα είναι ανεπανόρθωτα απενεργοποιημένος. Για παράδειγμα, με υπερβολική ταχύτητα μάθησης (ποσοστό μάθησης), μπορεί να αποδειχθεί ότι μέχρι το 40% των "νεκρών relu" (δηλαδή ποτέ ενεργοποιημένη). Αυτό το πρόβλημα επιλύεται επιλέγοντας την κατάλληλη ταχύτητα εκπαίδευσης.

Επί του παρόντος, υπάρχει μια ολόκληρη οικογένεια διαφόρων τροποποιήσεων των Relu. Στη συνέχεια, θα εξετάσουμε τα χαρακτηριστικά τους.

Για το LRELU ΑΙ έχει μια σταθερή τιμή, για το PRILU AI προσδιορίζεται με βάση τα δεδομένα, για το RRELU AJI παράγεται τυχαία από το καθορισμένο διάστημα κατά τη διάρκεια της εκπαίδευσης και παραμένει σταθερή κατά τη διάρκεια της δοκιμής.

Διαρροή.

Το Relu με μια "διαρροή" (διαρροή Relu, Lreelu) είναι μια από τις προσπάθειες επίλυσης του προβλήματος που περιγράφεται παραπάνω από την αποτυχία των συνηθισμένων relu. Κανονική relu στο διάστημα Χ.< 0 Δίνει μηδέν στην έξοδο, ενώ η Lreelu έχει μια μικρή αρνητική τιμή σε αυτό το διάστημα (ένας γωνιακός συντελεστής περίπου 0,01). Δηλαδή, η λειτουργία του Lreelu έχει τη μορφή f (x) \u003d Αx Για Χ.< 0 και f (x) \u003d x Για x ≥ 0.όπου α είναι μια μικρή σταθερά. Ορισμένοι ερευνητές αναφέρουν την επιτυχή εφαρμογή αυτής της λειτουργίας ενεργοποίησης, αλλά τα αποτελέσματα δεν είναι πάντοτε σταθερά.

Παραμετρικές relu.

Για παραμετρικές relu (παραμετρικές relu, predu), ο γωνιακός συντελεστής στο αρνητικό διάστημα δεν ορίζεται και καθορίζεται με βάση τα δεδομένα. Οι συγγραφείς της δημοσίευσης υποστηρίζουν ότι η χρήση αυτής της λειτουργίας ενεργοποίησης αποτελεί βασικό παράγοντα για να υπερβεί το ανθρώπινο επίπεδο στην εργασία αναγνώρισης εικόνας της εικόνας. Η διαδικασία αντίστροφης διάδοσης του σφάλματος και της ενημέρωσης για το PRELU (σελ. 43 διαφάνειες) είναι αρκετά απλή και είναι παρόμοια με την κατάλληλη διαδικασία για την παραδοσιακή relu.

Τυχαιοποιημένα relu.

Για μια τυχαιοποιημένη τυχαιοποιημένη relu, rrelu, ένας γωνιακός συντελεστής σε ένα αρνητικό διάστημα κατά τη διάρκεια της εκπαίδευσης παράγεται τυχαία από το καθορισμένο διάστημα και κατά τη διάρκεια των δοκιμών παραμένει σταθερή. Στο πλαίσιο του εθνικού κέντρου επιστήμης δεδομένων (NDSB), το RRELU (NDSB) RRELU έχει μειώσει την επανεκπαίδευση λόγω του εγγενούς στοιχείου τυχαιότητας. Σύμφωνα με τον νικητή αυτού του διαγωνισμού, ενώ μαθαίνουμε α ΕΓΩ. που δημιουργούνται τυχαία από τη διανομή 1 / u (3, 8)και κατά τη διάρκεια της δοκιμής η τιμή ήταν συνεχώς και ίση με τη μαθηματική προσδοκία: 2 / (L + U) \u003d 2/11.

Το L1-Recomitization έχει μια ενδιαφέρουσα ιδιοκτησία, η οποία αποτελείται από το γεγονός ότι στο αποτέλεσμα του, οι διανύσματα διάνυσμα γίνονται αραιές (δηλαδή, πολύ κοντά στο μηδέν). Με άλλα λόγια, οι νευρώνες με την κανονικότητα L1 τελικά χρησιμοποιούν μόνο ένα μικρό υποσύνολο των σημαντικότερων εισροών και, κατά συνέπεια, δεν επηρεάζεται σχεδόν από τις "θορυβώδεις" εισόδους.

Στην πράξη, εάν δεν υπάρχει ανάγκη για άμεση επιλογή των χαρακτηριστικών, η νομιμοποίηση L2 θα παράσχει το καλύτερο αποτέλεσμα σε σύγκριση με το κανονισμό L1.

Ζυγίζουν πρότυπα διανυσμάτων

Μια άλλη μέθοδος τακτοποίησης είναι η μέθοδος περιορισμού του κανόνα του φορέα βάρους (μέγιστο πρότυπο περιορισμού). Στα πλαίσια Αυτή τη μέθοδο Ορίσαμε το απόλυτο ανώτατο όριο για τον κανόνα του φορέα βάρη κάθε νευρώνα. Η συμμόρφωση με τον περιορισμό παρέχεται από την επιθυμητή καταγωγή κλίσης (προβλεπόμενη καταγωγή κλίσης). Στην πράξη, αυτό εφαρμόζεται ως εξής: Η ενημέρωση των βαρών εκτελείται ως συνήθως, και στη συνέχεια βάρη φορέα ω Κάθε νευρώνας περιορίζεται στην κατάσταση || Ω || 2.< c . Συνήθως, η τιμή ΝΤΟ. Αυτό είναι περίπου 3 ή 4. Ορισμένοι ερευνητές αναφέρουν θετικό αποτέλεσμα όταν χρησιμοποιούν αυτή τη μέθοδο κανονισμού. Μία από τις ευεργετικές ιδιότητες αυτής της μεθόδου είναι ότι σας επιτρέπει να αποτρέψετε την "εκρηκτική" αύξηση των βαρών ακόμη και με υπερβολική ταχύτητα κατάρτισης, επειδή οι ενημερώσεις ζύγισης είναι πάντα περιορισμένες.

Πτώση

Dropout - Μια απλή και πολύ αποτελεσματική μέθοδος κανονισμού, συμπληρώνοντας τις προαναφερθείσες μεθόδους. Προτείνεται πρόσφατα στο έργο. Η ουσία της μεθόδου είναι ότι στη διαδικασία μάθησης από κοινόχρηστο δίκτυο Τυχαία ξεχωρίστε τυχαία υποδίκτυα και η ενημέρωση ζύγισης εκτελείται μόνο μέσα σε αυτό το υποδίκτυο. Οι νευρώνες εμπίπτουν στο υποδίκτυο με πιθανότητα Π.που ονομάζεται συντελεστής τρυπανιού. Κατά τη διάρκεια της δοκιμής, η απόρριψη δεν ισχύει, αντ 'αυτού, το βάρος πολλαπλασιάζεται με τον συντελεστή του ρυθμού ροής, ως αποτέλεσμα της οποίας είναι δυνατόν να ληφθεί κατά μέσο όρο εκτίμηση για το σύνολο όλων των υποδιαστημάτων. Στην πράξη, ο συντελεστής τρυπανιού Π. Συνήθως επιλέγεται ίσο με 0,5, αλλά μπορεί να επιλεγεί χρησιμοποιώντας ένα σύνολο βάσεων επικύρωσης.

Οι σταγόνες είναι μία από τις πιο δημοφιλείς μεθόδους τακτοποίησης. Το 2014, η Google υπέβαλε αίτηση διπλώματος ευρεσιτεχνίας για αυτή τη μέθοδο.

7. Οπτικοποίηση

Στη διαδικασία εκμάθησης, είναι χρήσιμο να εκτελεστεί η απεικόνιση για τον έλεγχο της αποτελεσματικότητας της μάθησης.

Όπως γνωρίζετε, ο ρυθμός μάθησης είναι μια πολύ ευαίσθητη παράμετρος. Εικόνα 1 Παρακάτω βλέπουμε ότι με πολύ μεγάλες (πολύ υψηλές) ταχύτητες κατάρτισης, η καμπύλη σφάλματος θα έχει μια απαράδεκτη μορφή. Με μια μικρή (χαμηλή) ταχύτητα μάθησης, το σφάλμα θα μειωθεί πολύ αργά ακόμη και μετά από ένα μεγάλο αριθμό εποχών. Με μια μεγάλη (υψηλή) ταχύτητα κατάρτισης, το σφάλμα μειώνεται γρήγορα στην αρχή, αλλά στη συνέχεια εμπίπτει σε ένα τοπικό ελάχιστο, ως αποτέλεσμα του οποίου το δίκτυο μπορεί να μην φτάσει καλά αποτελέσματα. Στην περίπτωση που η ταχύτητα μάθησης επιλέγεται σωστά (καλή) (κόκκινη γραμμή), το σφάλμα μειώνεται ομαλά και τελικά φτάνει στην ελάχιστη τιμή.

Τώρα ας δούμε την καμπύλη σφάλματος σε μεγαλύτερη κλίμακα. Η εποχή (EPOCH) αντιστοιχεί σε ένα μόνο πέρασμα για ένα σύνολο μαθησιακών δεδομένων, αντίστοιχα, κάθε εποχή περιλαμβάνει πολλά μίνι πακέτα (μίνι παρτίδα). Εάν προβάλλεται το σφάλμα για κάθε μίνι συσκευασία, η καμπύλη σφάλματος θα προβληθεί στο Σχήμα 2. Όπως ήδη αναφέρθηκε σε σχέση με το σχήμα 1, εάν η καμπύλη σφάλματος έχει μια μορφή κοντά στο γραμμικό, αυτό υποδεικνύει χαμηλή ταχύτητα μάθησης. Εάν το σφάλμα μειώνεται αργά, ίσως η ταχύτητα της μάθησης είναι πολύ μεγάλη. Το "πλάτος" της καμπύλης αντιστοιχεί στο μέγεθος του μίνι συσκευασίας. Εάν το "πλάτος" είναι πολύ μεγάλο, δηλαδή, η διασπορά μεταξύ των μίνι πακέτων είναι πολύ μεγάλη, σημαίνει ότι είναι απαραίτητο να αυξηθεί το μέγεθος του μίνι συσκευασίας.

Ένα άλλο συμπέρασμα μπορεί να γίνει χρησιμοποιώντας καμπύλες ακρίβειας. Στο Σχήμα 3, η κόκκινη καμπύλη αντιπροσωπεύει ακρίβεια στο σύνολο μαθησιακών δεδομένων και πράσινο στην επικύρωση. Η απόσταση μεταξύ των καμπυλών δείχνει πόσο αποτελεσματικό είναι το μοντέλο. Μια μεγάλη απόσταση υποδηλώνει ότι το δίκτυο ταξινομείται καλά από τα δεδομένα κατάρτισης και κατηγορείται ότι τα δεδομένα επικύρωσης. Κατά συνέπεια, στην περίπτωση αυτή υπάρχει επανεκπαίδευση. Για την επίλυση αυτού του προβλήματος, είναι απαραίτητο να ενισχυθεί η τακτοποίηση. Εάν η απόσταση μεταξύ των καμπυλών απουσιάζει και οι δύο καμπύλες αντιστοιχούν στο χαμηλό επίπεδο ακρίβειας, αυτό σημαίνει ότι το μοντέλο μας έχει ανεπαρκή μάθηση. Σε αυτή την περίπτωση, για να βελτιωθεί το αποτέλεσμα, είναι απαραίτητο να αυξηθεί το δοχείο του μοντέλου.

8. Αναμφισβήτητα βαθιά δίκτυα

Διάφορα στάδια εκπαίδευσης ενός μοντέλου

Σε περίπτωση που η διαδικασία μάθησης είναι πολύ απαιτητική για πόρους, μπορεί να συνδυαστεί σε ένα σύνολο διαφορετικών σταδίων κατάρτισης ενός μοντέλου (σημείο ελέγχου), για παράδειγμα, μετά από κάθε εποχή. Αυτή η προσέγγιση δεν παρέχει μεγαλύτερη ποικιλομορφία, αλλά στην πράξη μπορεί να υπάρχουν αρκετά καλά αποτελέσματα.

Πρακτικό παράδειγμα:

Σε πραγματικά καθήκοντα, τα δεδομένα συνήθως διανέμονται άνισα από τα μαθήματα, δηλαδή ορισμένες τάξεις έχουν μεγάλο αριθμό εικόνων κατάρτισης και ορισμένα είναι σημαντικά λιγότερα. Όπως αναφέρθηκε σε πρόσφατη έκθεση, τα μη ισορροπημένα δεδομένα κατάρτισης ενδέχεται να έχουν σοβαρές αρνητικές επιπτώσεις στη συνολική αποτελεσματικότητα των βαθιών συνεδριακών δικτύων. Η απλούστερη λύση σε αυτό το πρόβλημα είναι να διπλασιάσετε τις εικόνες σε τάξεις με μια μικρή ποσότητα εικόνων ή αποκλεισμού εικόνων από τάξεις με μεγάλο αριθμό εικόνων. Μια άλλη λύση σε αυτό το πρόβλημα, το οποίο εφαρμόσαμε στο πλαίσιο του διαγωνισμού που περιγράφεται παραπάνω είναι περικοπή. Δεδομένου ότι οι αρχικές εικόνες πολιτιστικών εκδηλώσεων διανεμήθηκαν άνισα από τα μαθήματα, μάθαμε θραύσματα εικόνων για μαθήματα με μικρό αριθμό εκπαιδευτικών περιπτώσεων. Από τη μία πλευρά, αυτή η προσέγγιση παρείχε μια ποικιλία μαθησιακών δεδομένων και, αφετέρου, επέτρεψε την επίλυση του προβλήματος της ανισορροπίας.

Για την επίλυση του περιγραφόμενου προβλήματος, μπορείτε επίσης να εφαρμόσετε τη στρατηγική Λεπτή ρύθμιση (Fine-tuning) των προτιμήσεων. Συγκεκριμένα, το αρχικό σύνολο δεδομένων κατάρτισης μπορεί να χωριστεί σε δύο μέρη με τέτοιο τρόπο ώστε ένα μέρος να περιέχει τάξεις που αντιπροσωπεύονται από έναν μεγάλο αριθμό εικόνων και τις άλλες τάξεις που αντιπροσωπεύονται από έναν μικρό αριθμό εικόνων. Κάθε μέρος θα είναι σχετικά ισορροπημένο. Μετά από αυτό, πρέπει πρώτα να εκπαιδεύσετε το μοντέλο σε μαθήματα με μεγάλο αριθμό εικόνων και στη συνέχεια σε τάξεις με ένα μικρό αριθμό εικόνων.

Μετάφραση του Stanislav Petrenko

) είναι μέρος της επιστημονικής μου εργασίας στο πανεπιστήμιο, το οποίο ακούγεται έτσι: "ένα προγραμματικό συγκρότημα ανίχνευσης ατόμων στη ροή βίντεο χρησιμοποιώντας ένα συνεδριακό νευρικό δίκτυο". Σκοπός του έργου ήταν να βελτιωθούν τα χαρακτηριστικά ταχύτητας στη διαδικασία ανίχνευσης ατόμων στη ροή βίντεο. Μια φωτογραφική μηχανή smartphone χρησιμοποιήθηκε ως ροή βίντεο, γράφτηκε μια επιφάνεια εργασίας PS (γλώσσα Kotlin) για να δημιουργήσει και να διδάξει ένα συνεδριακό νευρικό δίκτυο, καθώς και την εφαρμογή κινητής τηλεφωνίας Android (γλώσσα Kotlin), η οποία χρησιμοποίησε το εκπαιδευμένο δίκτυο και προσπάθησε να αναγνωρίσει τα άτομα από τη ροή βίντεο κάμερας. Θα πω τα αποτελέσματα που πρέπει να χρησιμοποιηθούν έτσι Ακριβής αντίγραφο Η τοπολογία που πρότεινε από εμένα και κίνδυνο (δεν θα συνιστούσα).

Θεωρητικές εργασίες

  • Προσδιορίστε το πρόβλημα που λυθεί το πρόβλημα (ταξινόμηση, πρόβλεψη, τροποποίηση).
  • Ορισμός εισόδου (Τύπος: Εικόνα, Ήχος, Μέγεθος: 100x100, 30x30, Μορφή: RGB, σε κλίμακα σε κλίμακα) και έξοδος (αριθμός κλάσεων).
  • Προσδιορίστε την τοπολογία του συνεδριακού δικτύου (ο αριθμός των συνεδριακών, ανυψωτικών, πλήρων στρωμάτων. Ο αριθμός των σημείων σημείων, το μέγεθος των πυρήνων, λειτουργίες ενεργοποίησης).

Εισαγωγή

Na κορυφαία βαθμολογία Στον τομέα της αναγνώρισης των ατόμων, το Convolutical Neural Network έχει δείξει ή ένα συνεδριακό νευρικό δίκτυο (εφεξής που αναφέρεται ως SNA), η οποία είναι η λογική ανάπτυξη των ιδεών των αρχιτεκτονικών της NA ως ένα κνίνι και νεοκογόνου. Η επιτυχία οφείλεται στη δυνατότητα λογιστικής για τη δισδιάστατη τοπολογία εικόνας, σε αντίθεση με τα πολυστρωματικά αντίπαλα.

Τα νευρικά δίκτυα σύζευξης παρέχουν μερική αντίσταση στις αλλαγές κλίμακας, μετατοπίσεις, στροφές, αντικαθιστώντας τη γωνία και άλλες στρεβλώσεις. Τα νευρικά δίκτυα σύζευξης συνδυάζουν τρεις αρχιτεκτονικές ιδέες, για να εξασφαλίσουν την αμετάβλητη αλλαγή κλίμακας, να μετατρέψουν τη μετατόπιση και τη χωρική παραμόρφωση:

  • Τοπικά πεδία υποδοχέα (παρέχουν τοπική συνδεσιμότητα δισδιάστατων νευρώνων).
  • Κοινούς συναπτικοί συντελεστές (παρέχουν ανίχνευση ορισμένων λειτουργιών οπουδήποτε στην εικόνα και μειώνουν τον συνολικό αριθμό συντελεστών βάρους).
  • Ιεραρχική οργάνωση με χωρική υποτμήμα.
Προς το παρόν, το συνεδριακό νευρικό δίκτυο και οι τροποποιήσεις του θεωρούνται το καλύτερο από την άποψη της ακρίβειας και την ταχύτητα των αλγορίθμων εξεύρεσης αντικειμένων στη σκηνή. Από το 2012, τα νευρικά δίκτυα καταλαμβάνουν τα πρώτα μέρη στο γνωστό διεθνή διαγωνισμό για να αναγνωρίσει εικόνες Imagenet.

Αυτός είναι ο λόγος για τον οποίο στη δουλειά του χρησιμοποίησα ένα συνεδριακό νευρικό δίκτυο βάσει των αρχών του μη-Shogynitron και μια έκτακτη μάθηση σε έναν αλγόριθμο διανομής σφαλμάτων.

Δομή του νευρικού δικτύου σύζευξης

Το SNS αποτελείται από Διαφορετικά είδη Επίπεδα: Σύνδεσμοι (convolistal) στρώματα, υποσυνείδητα (υποσημεία, υποσημεία) στρώματα και στρώματα του "συνηθισμένου" νευρωνικού δικτύου - perseceptron, σύμφωνα με το σχήμα 1.


Εικόνα 1 - Τοπολογία του συνεδριακού νευρωνικού δικτύου

Οι δύο πρώτοι τύποι στρώσεων (Convolutional, Insidempling), εναλλάσσονται μεταξύ τους, αποτελούν τον φορέα εισόδου των σημείων για ένα πολυστρωματικό αντίπαλο.

Η εξέλιξη έλαβε το όνομά του στον τίτλο της λειτουργίας - μια περιστροφή, η ουσία του οποίου θα περιγραφεί.

Τα δίκτυα ζεύξης είναι μια επιτυχημένη μέση μεταξύ των βιολογικά πιστευτών δικτύων και ενός συμβατικού αντιλήματος πολλαπλών στρώσεων. Μέχρι σήμερα, τα καλύτερα αποτελέσματα στην αναγνώριση εικόνας λαμβάνονται με τη βοήθειά τους. Κατά μέσο όρο, η ακρίβεια της αναγνώρισης τέτοιων δικτύων υπερβαίνει τις συνήθεις επιθεωρήσεις κατά 10-15%. Το SNS είναι μια βασική τεχνολογία βαθιά μάθηση.

Η κύρια αιτία της επιτυχίας SNS ήταν η έννοια των κοινών ζυγών. Παρά το μεγάλο μέγεθος, αυτά τα δίκτυα έχουν μικρή ποσότητα προσαρμοσμένων παραμέτρων σε σύγκριση με τον πρόγονο τους - νεογογιά. Υπάρχουν παραλλαγές του SNA Convolutional Neural Network), παρόμοιο με το Neocognitron, σε τέτοια δίκτυα συμβαίνει, μια μερική άρνηση σχετικών κλιμάκων, αλλά ο αλγόριθμος μάθησης παραμένει ο ίδιος και βασίζεται στο σφάλμα επιστροφής. Το SNA μπορεί να λειτουργήσει γρήγορα σε μια σειριακή μηχανή και να μάθει γρήγορα λόγω της καθαρής παραλληλοποίησης της διαδικασίας συνέλευσης σε κάθε κάρτα, καθώς και μια αντίστροφη συνέλιξη όταν το σφάλμα δικτύου διανεμηθεί.

Το παρακάτω σχήμα δείχνει μια περιστασιακή και υπο-εκλογική απεικόνιση:

Μοντέλο νευρώνων


Τοπολογία του Convolutional Neuralo

Ο ορισμός της τοπολογίας του δικτύου επικεντρώνεται στην επιλυμένη εργασία, δεδομένα από Επιστημονικά άρθρα Και τη δική της πειραματική εμπειρία.

Μπορείτε να επιλέξετε τα ακόλουθα στάδια που επηρεάζουν την επιλογή της τοπολογίας:

  • Προσδιορίστε το πρόβλημα που λυθεί με το νευρικό δίκτυο (ταξινόμηση, πρόβλεψη, τροποποίηση).
  • Καθορίζουν τους περιορισμούς στο πρόβλημα που λυθεί (ταχύτητα, ακρίβεια της ανταπόκρισης) ·
  • Ορισμός εισόδου (Τύπος: Εικόνα, Ήχος, Μέγεθος: 100x100, 30x30, Μορφή: RGB, σε γκρι βαθμούς) και έξοδος (αριθμός κλάσεων).
Το νευρικό μου έργο επιλύεται - η ταξινόμηση εικόνων, ειδικά πρόσωπα. Οι επιβαλλόμενοι περιορισμοί στο δίκτυο είναι η ταχύτητα απόκρισης - όχι περισσότερο από 1 δευτερόλεπτο και η ακρίβεια αναγνώρισης τουλάχιστον 70%. Τη συνολική τοπολογία δικτύου σύμφωνα με το σχήμα 2.


Εικόνα 2 - Τοπολογία του συνεδριακού νευρωνικού δικτύου

Στρώμα εισόδου

Τα δεδομένα εισόδου αντιπροσωπεύουν έγχρωμες εικόνες τύπου JPEG, μεγέθους 48x48 pixels. Εάν το μέγεθος είναι πολύ μεγάλο, τότε η υπολογιστική πολυπλοκότητα θα αυξηθεί, αντίστοιχα, οι περιορισμοί στην ταχύτητα απόκρισης θα σπάσουν, ο ορισμός του μεγέθους αυτού του προβλήματος επιλύεται με τη μέθοδο επιλογής. Εάν επιλέξετε το μέγεθος είναι πολύ μικρό, το δίκτυο δεν θα είναι σε θέση να εντοπίσει βασικά σημάδια ατόμων. Κάθε εικόνα χωρίζεται σε 3 κανάλια: κόκκινο, μπλε, πράσινο. Έτσι, λαμβάνονται 3 εικόνες του μεγέθους των 48x48 pixel.

Το στρώμα εισόδου λαμβάνει υπόψη την δισδιάστατη τοπολογία της εικόνας και αποτελείται από διάφορες κάρτες (μήτρες), η κάρτα μπορεί να είναι μόνη, αν η εικόνα παρουσιάζεται σε αποχρώσεις του γκρι, διαφορετικά υπάρχουν 3 από αυτά, όπου κάθε κάρτα αντιστοιχεί σε ένα Εικόνα με ένα συγκεκριμένο κανάλι (κόκκινο, μπλε και πράσινο).

Η είσοδος κάθε ειδικής τιμής εικονοστοιχείου κανονικοποιείται στην περιοχή από 0 έως 1, σύμφωνα με τον τύπο:

Στρώμα κοπής

Το επιτυχημένο στρώμα είναι ένα σύνολο καρτών (ένα άλλο όνομα - σημάδια σημείων, στην καθημερινή ζωή είναι συνηθισμένες μήτρες), κάθε κάρτα έχει έναν συναπτικό πυρήνα (σε διαφορετικές πηγές ονομάζεται διαφορετικά: ένας πυρήνας ή φίλτρου σάρωσης).

Ο αριθμός των καρτών καθορίζεται από τις απαιτήσεις εργασίας εάν πάρετε μεγάλο αριθμό καρτών, η ποιότητα της αναγνώρισης θα αυξηθεί, αλλά η υπολογιστική πολυπλοκότητα θα αυξηθεί. Με βάση την ανάλυση των επιστημονικών άρθρων, στις περισσότερες περιπτώσεις προτείνεται να ληφθεί λόγος ενός έως δύο, δηλαδή κάθε κάρτα του προηγούμενου στρώματος (για παράδειγμα, στο πρώτο συνεδριακό στρώμα, η προηγούμενη είσοδος) συσχετίζεται Με δύο φύλλα του συνεδριακού στρώματος, σύμφωνα με το σχήμα 3. Ο αριθμός των καρτών - 6.


Εικόνα 3 - Οργάνωση των συνδέσμων μεταξύ των καρτών του συνεδριακού στρώματος και του προηγούμενου

Το μέγεθος όλων των καρτών του συνεδριακού στρώματος είναι το ίδιο και υπολογίζεται από τον τύπο 2:

Ο πυρήνας είναι ένα φίλτρο ή ένα παράθυρο που ολισθαίνει σε ολόκληρη την περιοχή της προηγούμενης κάρτας και βρίσκει ορισμένα σημάδια αντικειμένων. Για παράδειγμα, εάν το δίκτυο εκπαιδεύτηκε σε ένα σύνολο ατόμων, τότε ένας από τους πυρήνες θα μπορούσε στη διαδικασία μάθησης να παράγει το μεγαλύτερο σήμα στην περιοχή του ματιού, του στόματος, των φρυδιών ή της μύτης, ένας άλλος πυρήνας θα μπορούσε να ανιχνεύσει άλλα σημάδια . Το μέγεθος του πυρήνα συνήθως φορτίζεται κυμαίνεται από 3x3 έως 7x7. Εάν το μέγεθος του πυρήνα είναι μικρό, δεν θα είναι σε θέση να επισημάνει τυχόν σημάδια, αν είναι πολύ μεγάλο, τότε ο αριθμός των συνδέσεων μεταξύ των νευρώνων αυξάνεται. Επίσης, το μέγεθος του πυρήνα επιλέγεται έτσι ώστε το μέγεθος των καρτών Convolutional Layer να είναι ακόμη και σας επιτρέπει να χάσετε πληροφορίες όταν η διάσταση μειώνεται στην τηλεγατική στρώση που περιγράφεται παρακάτω.

Ο πυρήνας είναι ένα σύστημα κοινών ζυγών ή συνάψεων, αυτό είναι ένα από τα κύρια χαρακτηριστικά του συνεδριακού νευρωνικού δικτύου. Στο συνηθισμένο δίκτυο πολλαπλών στρώσεων υπάρχουν πολλοί σύνδεσμοι μεταξύ νευρώνων, δηλαδή συνάψεις, οι οποίες επιβραδύνουν αργά τη διαδικασία ανίχνευσης. Στο συνεδριακό δίκτυο, αντίθετα, τα συνολικά βάρη μειώνει τον αριθμό των συνδέσεων και επιτρέπουν στο ίδιο σύμβολο ολόκληρης της περιοχής εικόνας.

Αρχικά, οι τιμές κάθε συμβαλλόμενης κάρτας στρώματος είναι ίσες με 0. Οι τιμές των πυρηνικών ζυγών καθορίζονται τυχαία στην περιοχή από -0,5 έως 0,5. Ο πυρήνας ολισθαίνει πάνω από τον προηγούμενο χάρτη και κάνει μια λειτουργία συνέλιξης που χρησιμοποιείται συχνά για την επεξεργασία εικόνων, ο τύπος:

Ανεπαρκές, αυτή η λειτουργία μπορεί να περιγραφεί ως εξής - το παράθυρο μεγέθους πυρήνα G περνάει με ένα δεδομένο βήμα (συνήθως 1) όλη την εικόνα F, σε κάθε βήμα, πολλαπλασιάζουμε τα περιεχόμενα του παραθύρου στον πυρήνα g, το αποτέλεσμα συνοψίζεται επάνω και καταγράφονται στη μήτρα αποτελεσμάτων, όπως στο σχήμα 4.


Εικόνα 4 - Λειτουργία κοπής και λήψης συμβαλλόμενων τιμών καρτών (έγκυρη)


Κόψτε τη λειτουργία και τη λήψη περιστασιακών τιμών καρτών. Ο πυρήνας μετατοπίζεται, η νέα κάρτα λαμβάνεται με το ίδιο μέγεθος με το προηγούμενο (το ίδιο)

Σε αυτή την περίπτωση, ανάλογα με τη μέθοδο επεξεργασίας των άκρων της αρχικής μήτρας, το αποτέλεσμα μπορεί να είναι μικρότερο από την αρχική εικόνα (έγκυρη), το ίδιο μέγεθος (ίδιο) ή μεγαλύτερο μέγεθος (Πλήρης), σύμφωνα με το σχήμα 5.


Εικόνα 5 - Τρεις τύποι συνέλιξης της μήτρας προέλευσης

Σε μια απλοποιημένη μορφή, αυτό το στρώμα μπορεί να περιγραφεί από τον τύπο:

Ταυτόχρονα, λόγω των οριακών επιδράσεων, το μέγεθος των αρχικών πινάκων μειώνεται, ο τύπος:

Σούπερ στρώμα

Το στρώμα σφεντόνα καθώς και το εκκίνηση έχει κάρτες, αλλά ο αριθμός τους συμπίπτει με το προηγούμενο (convolutical) στρώμα, είναι 6. Ο σκοπός του στρώματος είναι να μειωθεί η διάσταση των προηγούμενων καρτών στρώσεων. Εάν η προηγούμενη λειτουργία της συνέλιξης έχει ήδη εντοπίσει ορισμένα σημάδια, τότε για περαιτέρω επεξεργασία, δεν είναι πλέον απαραίτητο για περαιτέρω επεξεργασία και συμπίπτεται με λιγότερο λεπτομερή. Επιπλέον, το φιλτράρισμα των ήδη περιττών εξαρτημάτων βοηθά να μην επανεκκίνηση.
Στη διαδικασία σάρωσης του πυρήνα του υποζώντος (φίλτρου) του χάρτη του προηγούμενου στρώματος, ο πυρήνας σάρωσης δεν διασταυρώνεται σε αντίθεση με το συνεδριακό στρώμα. Συνήθως, κάθε κάρτα διαθέτει πυρήνα 2x2, το οποίο σας επιτρέπει να μειώσετε τις προηγούμενες κάρτες του συνεκτορικό στρώμα 2 φορές. Ολόκληρη η κάρτα σημείου διαιρείται σε κύτταρα 2x2 του στοιχείου, του οποίου επιλέγεται η μέγιστη τιμή.

Συνήθως, η λειτουργία ενεργοποίησης του Relu χρησιμοποιείται στην τηλετελής στρώση. Λειτουργία συμβάντος (ή maxpooling είναι η μέγιστη επιλογή) σύμφωνα με το Σχήμα 6.


Εικόνα 6 - Σχηματισμός νέα κάρτα Σίδερο SOUTACT με βάση την προηγούμενη κάρτα στρώματος ζεύξης. Μέγιστη λειτουργία συγκέντρωσης

Τυπικά, το στρώμα μπορεί να περιγραφεί από τον τύπο:

Πλήρες στρώμα

Ο τελευταίος από τους τύπους στρώσεων είναι ένα στρώμα ενός συνηθισμένου πολλαπλών στρωμάτων. Ο σκοπός του στρώματος είναι η ταξινόμηση, προσομοιώνει μια πολύπλοκη μη γραμμική λειτουργία, η οποία βελτιστοποιεί την ποιότητα της αναγνώρισης βελτιώνεται.

Οι νευρώνες κάθε κάρτας της προηγούμενης υποσημείωσης συσχετίζονται με ένα κρυμμένο νευρώνα στρώματος. Έτσι, ο αριθμός των νευρώνων του κρυμμένου στρώματος είναι ίσος με τον αριθμό των καρτών του στρώματος υπεδάφους, αλλά η επικοινωνία μπορεί να μην είναι απαραιτήτως τέτοια, για παράδειγμα, μόνο ένα μέρος των νευρώνων οποιασδήποτε από τις κάρτες του στρώματος του υπόγειου στρώματος πρέπει να συσχετίζεται με Ο πρώτος νευρώνας του κρυμμένου στρώματος και το υπόλοιπο τμήμα με το δεύτερο ή όλα οι νευρώνες των πρώτων χαρτών συνδέονται με τους νευρώνες 1 και 2 του κρυμμένου στρώματος. Ο υπολογισμός των τιμών νευρώνων μπορεί να περιγραφεί από τον τύπο:

Στρώμα εξόδου

Το στρώμα εξόδου σχετίζεται με όλους τους νευρώνες του προηγούμενου στρώματος. Ο αριθμός των νευρώνων αντιστοιχεί στον αριθμό των αναγνωρίσιμων τάξεων, δηλαδή, 2 - πρόσωπο και όχι πρόσωπο. Αλλά για να μειωθεί ο αριθμός των συνδέσεων και των υπολογισμών για τη δυαδική περίπτωση, μπορεί να χρησιμοποιηθεί ένας νευρώνας και όταν χρησιμοποιείται ως λειτουργία ενεργοποίησης, υπερβολική εφαπτομένη, η απόδοση του νευρώνα με την τιμή -1 σημαίνει ότι ανήκει στην τάξη "όχι πρόσωπο", Απέναντι από την απόδοση του νευρώνα με την τιμή 1 - σημαίνει ότι ανήκουν στα άτομα της τάξης.

Επιλέξτε λειτουργία ενεργοποίησης

Ένα από τα στάδια της ανάπτυξης του νευρικού δικτύου είναι να επιλέξει τη λειτουργία ενεργοποίησης των νευρώνων. Ο τύπος λειτουργίας ενεργοποίησης προσδιορίζεται σε μεγάλο βαθμό. Λειτουργικότητα Νευρωνικό δίκτυο και τρόπος εκμάθησης αυτού του δικτύου. Ο κλασικός αλγόριθμος διανομής σφαλμάτων λειτουργεί καλά σε νευρικά δίκτυα δύο στρώσεων και τριών επιπέδων, αλλά με περαιτέρω αύξηση σε βάθος αρχίζει να αντιμετωπίζει προβλήματα. Ένας από τους λόγους είναι η αποκαλούμενη κώφωση των βαθμίδων. Καθώς το σφάλμα κατανέμεται από το στρώμα εξόδου στην είσοδο σε κάθε στρώμα, το ρεύμα αποτέλεσμα βασίζεται στο παράγωγο της λειτουργίας ενεργοποίησης. Το παράγωγο της παραδοσιακής λειτουργίας ενεργοποίησης Sigmoid είναι μικρότερο από τη μονάδα σε ολόκληρο το πεδίο ορισμού, έτσι μετά από διάφορα στρώματα, το σφάλμα θα γίνει κοντά στο μηδέν. Εάν, αντίθετα, η λειτουργία ενεργοποίησης έχει ένα απεριόριστο παράγωγο (όπως, για παράδειγμα, μια υπερβολική εφαπτομένη), η εκρηκτική αύξηση σφάλματος μπορεί να προκύψει καθώς η διάδοση θα διανεμηθεί, η οποία θα οδηγήσει σε αστάθεια της διαδικασίας μάθησης.

Σε αυτό το έργο, χρησιμοποιείται μια υπερβολική εφαπτομένη ως συνάρτηση της ενεργοποίησης στα κρυμμένα και τα στρώματα εξόδου, το Relu ισχύει σε συνεδριακές στρώσεις. Εξετάστε τις πιο συνηθισμένες λειτουργίες ενεργοποίησης που χρησιμοποιούνται στα νευρικά δίκτυα.

Λειτουργία ενεργοποίησης Sigmoid

Αυτή η λειτουργία αναφέρεται σε μια κατηγορία συνεχών λειτουργιών και παίρνει έναν αυθαίρετο πραγματικό αριθμό στην είσοδο και στην έξοδο δίνει έναν πραγματικό αριθμό στην περιοχή από 0 έως 1. Ειδικότερα, οι αρνητικοί αριθμοί κυμαίνονται σε μηδέν, και μεγάλες θετικές - σε μια. Ιστορικά, το Sigmoid έχει χρησιμοποιηθεί ευρέως, καθώς η παραγωγή της ερμηνεύεται καλά ως το επίπεδο ενεργοποίησης του νευρώνα: από την έλλειψη ενεργοποίησης (0) στην πλήρη πλούσια ενεργοποίηση (1). Το Sigmoid (Sigmoid) εκφράζεται από τον τύπο:

Το γράφημα μιας σιγμοειδούς λειτουργίας σύμφωνα με το παρακάτω σχήμα:

Η εξαιρετικά ανεπιθύμητη ιδιότητα του σιγμοειδούς είναι ότι όταν κορεσθεί η λειτουργία από τη μία ή άλλη πλευρά (0 ή 1), η κλίση σε αυτές τις θέσεις γίνεται κοντά στο μηδέν.

Θυμηθείτε ότι στη διαδικασία αντίστροφης διάδοσης του σφάλματος, αυτή η (τοπική) κλίση πολλαπλασιάζεται με μια κοινή κλίση. Επομένως, εάν η τοπική κλίση είναι πολύ μικρή, πραγματικά επαναφέρει τη γενική κλίση. Ως αποτέλεσμα, το σήμα σχεδόν δεν θα περάσει από τον νευρώνα στα βάρη του και αναδρομικά στα δεδομένα του. Επιπλέον, θα πρέπει να είναι πολύ προσεκτική όταν αρχίζετε τις κλίμακες των sigmoid νευρώνες για να αποφευχθεί ο κορεσμός. Για παράδειγμα, εάν τα βάρη πηγής έχουν πολύ μεγάλες τιμές, οι περισσότεροι νευρώνες μπαίνουν σε κατάσταση κορεσμού, ως αποτέλεσμα της οποίας το δίκτυο θα είναι κακώς εκπαιδευμένο.

Η σιγμοειδική λειτουργία είναι:

  • συνεχής;
  • μονότονη αύξηση.
  • Διαφοροποιημένη.

Λειτουργία ενεργοποίησης Υπερβολική εφαπτομένη

Σε αυτό το έργο, χρησιμοποιείται μια υπερβολική εφαπτομένη ως λειτουργία ενεργοποίησης για κρυμμένα και στρώματα εξόδου. Αυτό οφείλεται στους ακόλουθους λόγους:
  • Οι συμμετρικές λειτουργίες ενεργοποίησης, όπως τα υπερβολικά εφαπτομενικά παρέχουν ταχύτερη σύγκλιση από την τυπική λογική λειτουργία.
  • Η λειτουργία έχει ένα συνεχές πρώτο παράγωγο.
  • Η λειτουργία έχει ένα απλό παράγωγο, το οποίο μπορεί να υπολογιστεί με την αξία του, η οποία παρέχει εξοικονόμηση υπολογισμών.
Το γράφημα της λειτουργίας της υπερβολικής εφαπτομένης παρουσιάζεται στο σχήμα:

Λειτουργία ενεργοποίησης Relu

Είναι γνωστό ότι τα νευρικά δίκτυα είναι ικανά να φέρουν μια αυθαίρετα πολύπλοκη λειτουργία εάν υπάρχουν αρκετά στρώματα και η λειτουργία ενεργοποίησης είναι μη γραμμική. Οι λειτουργίες ενεργοποίησης όπως το Sigmoid ή το εφαπτόμενο είναι μη γραμμικό, αλλά οδηγούν σε προβλήματα με εξασθένηση ή αυξανόμενη κλίση. Ωστόσο, είναι δυνατή η χρήση μιας πολύ απλούστερης επιλογής - μια ευθυγραμμισμένη γραμμική λειτουργία ενεργοποίησης (διορθωμένη γραμμική μονάδα, Relu), η οποία εκφράζεται από τον τύπο:

Το γράφημα της λειτουργίας Relu σύμφωνα με την παρακάτω εικόνα:

Πλεονεκτήματα της χρήσης Relu:

  • Το παράγωγο του είναι ίσο με μία μονάδα είτε με μηδέν, και επομένως η ανάπτυξη μπορεί να συμβεί ή να εξασφαλίσει κλίσεις, διότι Πολλαπλασιάζοντας τη μονάδα στο Delta σφάλματος θα λάβουμε ένα λάθος Delta, αν χρησιμοποιήσαμε μια άλλη λειτουργία, για παράδειγμα, μια υπερβολική εφαπτομένη, τότε το σφάλμα Delta θα μπορούσε ή να μειωθεί ή να αυξηθεί ή να παραμείνει το ίδιο, δηλαδή το παράγωγο του Η υπερβολική εφαπτομένη επιστρέφει τον αριθμό με διαφορετικά σημεία και το μέγεθος που μπορείτε να επηρεάσετε έντονα την εξασθένιση ή την ανάπτυξη της κλίσης. Επιπλέον, η χρήση αυτής της λειτουργίας οδηγεί στην αραίωση των ζυγών.
  • Ο υπολογισμός της σιγμοειδούς και της υπερβολικής εφαπτομένης απαιτεί την εφαρμογή λειτουργιών έντασης πόρων, όπως η άσκηση, ενώ το Relu μπορεί να εφαρμοστεί χρησιμοποιώντας μια απλή μετατροπή κατωφλίου της μήτρας ενεργοποίησης στο μηδέν.
  • Κόβει τα περιττά μέρη στο κανάλι με αρνητική έξοδο.
Από τα μειονεκτήματα μπορεί να σημειωθεί ότι η Relu δεν είναι πάντα αξιόπιστη αρκετά και στη διαδικασία της μάθησης μπορεί να αποτύχει ("πεθαίνει"). Για παράδειγμα, μια μεγάλη βαθμίδα που διέρχεται από το Relu μπορεί να οδηγήσει σε μια τέτοια ενημέρωση των ζυγών που ο νευρώνας δεν ενεργοποιείται ποτέ. Εάν συμβεί αυτό, τότε, ξεκινώντας από αυτό το σημείο, η κλίση που διέρχεται από αυτόν τον νευρώνα θα είναι πάντα μηδέν. Συνεπώς, αυτός ο νευρώνας θα είναι ανεπανόρθωτα απενεργοποιημένος. Για παράδειγμα, με υπερβολική ταχύτητα μάθησης (ποσοστό μάθησης), μπορεί να αποδειχθεί ότι μέχρι το 40% των "νεκρών relu" (δηλαδή ποτέ ενεργοποιημένη). Αυτό το πρόβλημα επιλύεται επιλέγοντας την κατάλληλη ταχύτητα εκπαίδευσης.

Εκπαιδευτικά δείγματα που χρησιμοποιούνται σε πειράματα

Το δείγμα εκπαίδευσης αποτελείται από θετικά και αρνητικά παραδείγματα. Σε αυτή την περίπτωση, από ιδιώτες και "όχι άτομα". Η αναλογία θετικών σε αρνητικά παραδείγματα 4 έως 1, 8000 θετικά και 2000 αρνητικά.

Η βάση δεδομένων LFW3D χρησιμοποιήθηκε ως θετικό δείγμα εκπαίδευσης. Περιέχει έγχρωμες εικόνες των μπροστινών προσώπων τύπου JPEG, μεγέθους 90x90 pixel, σε ποσότητα 13000. Η βάση δεδομένων παρέχεται από το FTP, η πρόσβαση πραγματοποιείται με κωδικό πρόσβασης. Για να πάρετε έναν κωδικό πρόσβασης, πρέπει να συμπληρώσετε Κύρια σελίδα Site απλή φόρμα όπου να καθορίσετε το όνομά σας και ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ. Ένα παράδειγμα ατόμων από τη βάση δεδομένων παρουσιάζεται σύμφωνα με το παρακάτω σχήμα:

Ως αρνητικά παραδείγματα κατάρτισης, χρησιμοποιήθηκε η βάση δεδομένων Sun397, περιέχει έναν τεράστιο αριθμό όλων των ειδών σκηνών, οι οποίες χωρίζονται σε κατηγορίες. Συνολικά 130.000 εικόνες, 908 σκηνές, 313000 αντικείμενα σκηνής. Το συνολικό βάρος αυτής της βάσης είναι 37 GB. Οι κατηγορίες εικόνων είναι αρκετά διαφορετικές και σας επιτρέπουν να επιλέξετε ένα πιο συγκεκριμένο περιβάλλον όπου θα χρησιμοποιηθεί το τελικό PS. Για παράδειγμα, εάν ένα priori είναι γνωστό ότι ο ανιχνευτής των ατόμων προορίζεται μόνο για την αναγνώριση σε εσωτερικούς χώρους, δεν έχει νόημα να χρησιμοποιήσει ένα δείγμα εκπαίδευσης της φύσης, του ουρανού, των βουνών κλπ. Για το λόγο αυτό, οι ακόλουθες κατηγορίες εικόνων επιλέχθηκαν από τον συντάκτη της εργασίας: σαλόνι, γραφείο, δροσερό δωμάτιο, αίθουσα υπολογιστών. Παραδείγματα εικόνων από το δείγμα κατάρτισης Sun397 εμφανίζονται σύμφωνα με το παρακάτω σχήμα:

Αποτελέσματα

Η άμεση κατανομή του σήματος από την εικόνα εισόδου με μέγεθος 90x90 pixel διαρκεί 20 ms (σε υπολογιστή), 3000 ms in Εφαρμογή κινητού. Κατά την ανίχνευση ενός προσώπου σε ένα ρεύμα βίντεο σε ανάλυση 640x480 pixel, είναι δυνατόν να ανιχνεύσετε 50 όχι επικαλυπτόμενες περιοχές με μέγεθος 90x90 pixels. Τα αποτελέσματα που ελήφθησαν με την επιλεγμένη τοπολογία δικτύου είναι χειρότερα σε σύγκριση με τον αλγόριθμο Jones Violi.

συμπεράσματα

Τα νευρικά δίκτυα σύζευξης παρέχουν μερική αντίσταση στις αλλαγές κλίμακας, μετατοπίσεις, στροφές, αντικαθιστώντας τη γωνία και άλλες στρεβλώσεις.

Πυρήνας - Είναι ένα φίλτρο που ολισθαίνει σε ολόκληρη την εικόνα και βρίσκει σημάδια ενός ατόμου σε οποιοδήποτε μέρος (Invariarce σε αντισταθμίσεις).

Σούπερ στρώμα Δίνει:

  • αύξηση της ταχύτητας των υπολογισμών (τουλάχιστον 2 φορές), μειώνοντας τη διάσταση των καρτών του προηγούμενου στρώματος.
  • φιλτράρισμα ήδη περιττά μέρη.
  • Αναζήτηση σημείων περισσότερο υψηλό επίπεδο (για το επόμενο συνεδριακό στρώμα).
Τελευταία στρώματα - στρώματα του συνηθισμένου πολλαπλών στρώσεων. Δύο πλήρεις και συνδεδεμένες και μια μέρα μακριά. Αυτό το στρώμα είναι υπεύθυνο για την ταξινόμηση, από μαθηματική άποψη, προσομοιώνει μια πολύπλοκη μη γραμμική λειτουργία, η οποία βελτιστοποιεί την οποία βελτιώνεται η ποιότητα της αναγνώρισης. Αριθμός νευρώνων σε ένα στρώμα 6 με τον αριθμό των καρτών των σημείων του στρώματος υπεδάφους.

Πιθανές βελτιώσεις

  • Εξετάστε το Neuraletas Fast-RCNN, Yolo;
  • παραλληλοποίηση της μάθησης σε επεξεργαστές γραφικών ·
  • Χρησιμοποιώντας το Android NDK (C ++) για τη βελτίωση της απόδοσης

Η εκπαίδευση του συνεδριακού νευρωνικού δικτύου περιγράφεται στο

Τι κάνει ο τεχνητός νευρώνας; Απλά λόγιαΘεωρεί ένα σταθμισμένο ποσό στις εισροές του, προσθέτει μετατόπιση (μεροληψία) και αποφασίζει, αυτή η τιμή πρέπει να αποκλειστεί ή να χρησιμοποιηθεί σε (ναι, η λειτουργία ενεργοποίησης λειτουργεί, αλλά ας πάμε στη σειρά).

Λειτουργία ενεργοποίησης Ορίζει την τιμή εξόδου του νευρώνα, ανάλογα με το αποτέλεσμα της αιωρούμενης ποσότητας των εισόδων και της τιμής κατωφλίου.

Εξετάστε τους νευρώνες:

Τώρα η τιμή Y. Μπορεί να είναι οποιαδήποτε στη ζώνη από το + άπειρο + άπειρο. Στην πραγματικότητα, ο νευρώνας δεν γνωρίζει τα σύνορα μετά την οποία πρέπει να είναι η ενεργοποίηση. Θα απαντήσουν στο ερώτημα πώς αποφασίζουμε αν πρέπει να ενεργοποιηθεί ο νευρώνας (θεωρούμε το πρότυπο ενεργοποίησης, όπως μπορούμε να πραγματοποιήσουμε μια αναλογία με τη βιολογία. Είναι λοιπόν ο εγκέφαλος, και ο εγκέφαλος είναι μια καλή μαρτυρία του έργου ενός σύνθετο και λογικό σύστημα).

Για το σκοπό αυτό, αποφάσισαν να προσθέσουν μια λειτουργία ενεργοποίησης. Ελέγχει την τιμή που παράγεται από τον νευρώνα Y. Για το αν οι εξωτερικές επικοινωνίες θα πρέπει να εξετάσουν αυτόν τον νευρώνα όπως ενεργοποιημένο, ή μπορεί να αγνοηθεί.

Ενεργοποίηση λειτουργίας βημάτων

Το πρώτο πράγμα που έρχεται στο μυαλό είναι το ζήτημα του τι θεωρείται ότι είναι ένα όριο ενεργοποίησης για τη λειτουργία ενεργοποίησης. Εάν η τιμή Y. Περισσότερο από κάποιο όριο, θεωρούμε ότι ο νευρώνας ενεργοποιείται. Διαφορετικά, λέμε ότι ο νευρώνας είναι ανενεργός. Ένα τέτοιο σχέδιο πρέπει να λειτουργεί, αλλά πρώτα να το επισημοποιήσει.

  • Λειτουργία A \u003d ενεργοποιημένη αν y\u003e σύνορα, αλλιώς όχι.
  • Μια άλλη μέθοδος: a \u003d 1, αν y\u003e σύνορα, αλλιώς a \u003d 0.

Η λειτουργία που μόλις δημιουργήσαμε ονομάζεται βαθμιαία. Αυτή η λειτουργία εμφανίζεται στο παρακάτω σχήμα.

Η λειτουργία παίρνει την τιμή 1 (ενεργοποιημένη) πότε Y\u003e 0 (σύνορα) και τιμή 0 (δεν ενεργοποιείται) διαφορετικά.

Δημιουργήσαμε μια λειτουργία ενεργοποίησης για έναν νευρώνα. Αυτός είναι ένας εύκολος τρόπος, αλλά υπάρχουν ελαττώματα σε αυτό. Εξετάστε την ακόλουθη κατάσταση.

Φανταστείτε ότι δημιουργούμε Δυαδικός ταξινομητής - ένα μοντέλο που πρέπει να πει "ναι" ή "όχι" (ενεργοποιημένο ή όχι). Μια βηματική λειτουργία θα το κάνει για εσάς - εμφανίζει 1 ή 0.

Τώρα φανταστείτε την υπόθεση όταν απαιτείται μεγαλύτερος αριθμός νευρώνων Ταξινομήσεις πολλών τάξεων: Κλάση1, Κλάση2, Κλάση3 και ούτω καθεξής. Τι θα συμβεί αν ενεργοποιηθούν περισσότεροι από 1 νευρώνας; Όλοι οι νευρώνεςΑπό τη λειτουργία ενεργοποίησης, θα αποφασίσουμε 1. Σε αυτή την περίπτωση, εμφανίζονται ερωτήσεις σε ποια κατηγορία θα πρέπει τελικά να αποδειχθεί για ένα συγκεκριμένο αντικείμενο.

Θέλουμε να ενεργοποιήσουμε μόνο έναν νευρώνα και οι λειτουργίες ενεργοποίησης άλλων νευρώνων ήταν μηδέν (μόνο στην περίπτωση αυτή μπορεί να είναι σίγουρη ότι το δίκτυο καθορίζει σωστά την τάξη). Ένα τέτοιο δίκτυο είναι πιο δύσκολο να εκπαιδεύσει και να αναζητήσει τη σύγκλιση. Εάν η λειτουργία ενεργοποίησης δεν είναι δυαδική, τότε οι τιμές ενεργοποιούνται κατά 50% "," ενεργοποιούνται κατά 20% "και ούτω καθεξής. Εάν ενεργοποιηθούν αρκετοί νευρώνες, μπορείτε να βρείτε τον νευρώνα με τη μεγαλύτερη αξία της λειτουργίας ενεργοποίησης (καλύτερη, φυσικά, έτσι ώστε να ήταν softmax. λειτουργία και όχι Μέγιστη. Αλλά μέχρι να ασχοληθούμε με αυτές τις ερωτήσεις).

Αλλά σε αυτή την περίπτωση, όπως και πριν, αν περισσότεροι από ένας νευρώνες λένε "ενεργοποιημένο κατά 100%", το πρόβλημα εξακολουθεί να υπάρχει. Όπως υπάρχει ύπαρξη Ενδιάμεσες τιμές Στο αποτέλεσμα του νευρώνα, η διαδικασία μάθησης είναι πιο ομαλή και γρήγορα και η πιθανότητα εμφάνισης αρκετών πλήρως ενεργοποιημένων νευρώνων κατά τη διάρκεια της προπόνησης μειώνεται σε σύγκριση με μια σταθερή λειτουργία ενεργοποίησης (αν και εξαρτάται από το τι διδάσκετε και σε ποια δεδομένα ).

Αποφασίσαμε ότι θα θέλαμε να λάβουμε ενδιάμεσες τιμές της λειτουργίας ενεργοποίησης (αναλογική λειτουργία) και όχι μόνο να πούμε "ενεργοποιημένη" ή όχι (δυαδική λειτουργία).

Το πρώτο πράγμα που έρχεται στο κεφάλι είναι μια γραμμική λειτουργία.

Λειτουργία γραμμικής ενεργοποίησης

A \u003d cx.

Η γραμμική λειτουργία είναι μια ευθεία γραμμή και είναι ανάλογη με την είσοδο (αυτή είναι η σταθμισμένη ποσότητα σε αυτόν τον νευρώνα).

Μια τέτοια επιλογή της λειτουργίας ενεργοποίησης σας επιτρέπει να πάρετε ένα φάσμα τιμών και όχι μόνο μια δυαδική απόκριση. Μπορείτε να συνδέσετε αρκετούς νευρώνες μαζί και, εάν ενεργοποιηθούν περισσότεροι από ένας νευρώνας, το διάλυμα γίνεται με βάση την εφαρμογή της μέγιστης λειτουργίας (ή του softmax). Αλλά εδώ δεν είναι χωρίς προβλήματα.

Εάν είστε εξοικειωμένοι με τη μέθοδο μάθησης, τότε ενδέχεται να παρατηρήσετε ότι για αυτή τη λειτουργία, το παράγωγο είναι ίσο με σταθερό.

Που προέρχονται από A \u003d cx. με Χ. ίσος από. Αυτό σημαίνει ότι η κλίση δεν είναι συνδεδεμένη με Η.. Η κλίση είναι ένας μόνιμος φορέας και η κάθοδος γίνεται σύμφωνα με μια μόνιμη κλίση. Εάν εκτελείται λανθασμένη πρόβλεψη, τότε οι αλλαγές που γίνονται από σφάλματα είναι επίσης σταθερά και δεν εξαρτώνται από την αλλαγή στην είσοδο Delta (x).

Δεν είναι καλό (όχι πάντα, αλλά στις περισσότερες περιπτώσεις). Αλλά υπάρχει ένα άλλο πρόβλημα. Εξετάστε τα σχετικά επίπεδα. Κάθε στρώμα ενεργοποιείται με γραμμική λειτουργία. Η τιμή από αυτή τη λειτουργία μεταβαίνει στο επόμενο στρώμα ως είσοδος, το δεύτερο στρώμα θεωρεί το σταθμισμένο ποσό στις εισόδους του και, με τη σειρά τους, περιλαμβάνει νευρώνες ανάλογα με μια άλλη γραμμική λειτουργία ενεργοποίησης.

Δεν έχει σημασία πόσα επίπεδα έχουμε. Αν όλα αυτά από τη φύση τους γραμμική, τότε η τελική λειτουργία ενεργοποίησης στο τελευταίο στρώμα θα είναι απλά γραμμική λειτουργία από τις εισόδους στο πρώτο στρώμα! Σταματήστε για μια στιγμή και σκεφτείτε αυτή την ιδέα.

Αυτό σημαίνει ότι δύο στρώματα (ή n στρώματα) μπορούν να αντικατασταθούν από ένα στρώμα. Έχουμε χάσει την ευκαιρία να κάνουμε σύνολα από τα στρώματα. Δεν έχει σημασία πώς στοιβάζουμε, όλα θα εξακολουθούν να είναι παρόμοια με ένα στρώμα με μια γραμμική λειτουργία ενεργοποίησης ( Συνδυασμός γραμμικών λειτουργιών γραμμικά - μια άλλη γραμμική λειτουργία).

Σιγμοειδής

Το Sigmoid φαίνεται ομαλό και παρόμοιο με μια βηματική λειτουργία. Εξετάστε τα πλεονεκτήματα του.

Πρώτον, το Sigmoid είναι μη γραμμικό από τη φύση του και ο συνδυασμός τέτοιων λειτουργιών παράγει επίσης μια μη γραμμική λειτουργία. Τώρα μπορούμε να στοιβάζουμε στρώματα.

Ένα άλλο πλεονέκτημα μιας τέτοιας λειτουργίας δεν είναι δυαδικό, το οποίο καθιστά την ενεργοποίηση του αναλογικού, σε αντίθεση με τη λειτουργία βημάτων. Για το Sigmoid χαρακτηρίζεται επίσης από μια κομψή κλίση.

Εάν παρατηρήσετε, στο εύρος των αξιών Χ. από -2 έως 2 Οι τιμές Y αλλάζουν πολύ γρήγορα. Αυτό σημαίνει ότι οποιαδήποτε μικρή τιμή αλλαγής Χ. Σε αυτόν τον τομέα, μια βασική αλλαγή αξίας Y.. Αυτή η συμπεριφορά της λειτουργίας υποδεικνύει ότι το y έχει την τάση να πιέζει προς μία από τις άκρες της καμπύλης.

Το Sigmoid μοιάζει πραγματικά με ένα κατάλληλο χαρακτηριστικό για τις εργασίες ταξινόμησης. Προσπαθεί να φέρει τιμές στη μία πλευρά της καμπύλης (για παράδειγμα, στην κορυφή x \u003d 2. και παρακάτω x \u003d -2.). Αυτή η συμπεριφορά σας επιτρέπει να βρείτε σαφή όρια στην πρόβλεψη.

Ένα άλλο πλεονέκτημα των σιγμοειδών πάνω σε μια γραμμική λειτουργία έχει ως εξής. Στην πρώτη περίπτωση, έχουμε ένα σταθερό εύρος τιμών λειτουργίας - ενώ η γραμμική λειτουργία ποικίλλει μέσα (-ίν, inf). Αυτή η ιδιότητα του Sigmoid είναι πολύ χρήσιμη, καθώς δεν οδηγεί σε σφάλματα στην περίπτωση μεγάλων τιμών ενεργοποίησης.

Σήμερα, το Sigmoid είναι μία από τις συχνότερες λειτουργίες ενεργοποίησης σε νευρωνικά δίκτυα. Αλλά έχει τις ελλείψεις που αξίζει να δοθεί προσοχή.

Θα μπορούσατε να το έχετε ήδη δει ότι όταν προσεγγίζουμε τα άκρα της σιγμονώδους τιμής y, η τάση έχει μια ασθενώς ανταποκρινόμενη στις αλλαγές στο Χ.. Αυτό σημαίνει ότι η κλίση σε τέτοιες περιοχές λαμβάνει μικρές τιμές. Και αυτό, με τη σειρά του, οδηγεί σε προβλήματα με την κλίση της εξαφάνισης. Σκεφτείτε λεπτομερώς τι συμβαίνει όταν μια λειτουργία ενεργοποίησης προσεγγίζει ένα σχεδόν οριζόντιο τμήμα της καμπύλης και στις δύο πλευρές.

Σε αυτή την περίπτωση, η αξία της κλίσης είναι μικρή ή εξαφανίζεται (δεν μπορεί να κάνει σημαντική αλλαγή λόγω μιας εξαιρετικά μικρής αξίας). Το Neuralet αρνείται να μάθει περαιτέρω ή καθιστά εξαιρετικά αργή (ανάλογα με τη μέθοδο χρήσης ή έως ότου αρχίσει η κλίση / υπολογισμός να υποφέρει από περιορισμούς σε μια τιμή πλωτή. Υπάρχουν επιλογές για την εργασία σε αυτά τα προβλήματα και το Sigmoid εξακολουθεί να είναι πολύ δημοφιλές για τα καθήκοντα ταξινόμησης.

Μια άλλη συχνά χρησιμοποιούμενη λειτουργία ενεργοποίησης είναι μια υπερβολική εφαπτομένη.

Η υπερβολική εφαπτομένη είναι πολύ παρόμοια με το sigmoid. Και πράγματι, Αυτή είναι μια διορθωμένη λειτουργία Sigmoid.

Επομένως, μια τέτοια λειτουργία έχει τα ίδια χαρακτηριστικά με το Sigmoid που συζητήθηκε νωρίτερα. Η φύση της είναι μη γραμμική, είναι κατάλληλη για ένα συνδυασμό ενός στρώματος και το εύρος των τιμών λειτουργίας - (- 1, 1). Επομένως, δεν έχει νόημα να ανησυχείτε ότι η λειτουργία ενεργοποίησης θα υπερφορτώσει από μεγάλες τιμές. Ωστόσο, αξίζει να σημειωθεί ότι η βαθμίδα της εφαπτομενικής λειτουργίας είναι μεγαλύτερη από αυτή του σιγμοειδούς (ψυχρότερο παράγωγο). Η απόφαση να επιλέξει αν το Sigmoid ή το εφαπτόμενο εξαρτάται από τις απαιτήσεις εύρους κλίση σας. Εκτός από το σιγμοειδές, υπερβολική εφαπτομένη είναι το πρόβλημα της εξαφάνισης της κλίσης.

Η εφαπτομένη είναι επίσης πολύ δημοφιλής και χρησιμοποιείται λειτουργία ενεργοποίησης.

Relu.

Στη συνέχεια στη λίστα μας - η λειτουργία ενεργοποίησης των RELU,

Ένα (x) \u003d max (0, x)

Χρησιμοποιώντας τον ορισμό, γίνεται σαφές ότι το Relu επιστρέφει μια τιμή Η., αν ένα Η. Θετική, Ι. 0 σε διαφορετική περίπτωση. Το σχέδιο εργασίας παρουσιάζεται παρακάτω.

Με την πρώτη ματιά, φαίνεται ότι το Relu έχει όλα τα ίδια προβλήματα με μια γραμμική λειτουργία, καθώς η Relu είναι γραμμική στο πρώτο τεταρτημόριο. Αλλά στην πραγματικότητα, Το Relu είναι μη γραμμικό από τη φύση του και ο συνδυασμός relu είναι επίσης μη γραμμικός! (Στην πραγματικότητα, μια τέτοια λειτουργία είναι καλή ΠροσεγγίζωνΔεδομένου ότι οποιαδήποτε λειτουργία μπορεί να προσεγγιστεί με ένα συνδυασμό Relu). Αυτό σημαίνει ότι μπορούμε να στοιβάζουμε στρώματα. Περιοχή Επιτρεπόμενες τιμές Relu -)

Συνεχίζοντας το θέμα:
συσκευές

Γνωρίστε το online παιχνίδι Invaders Galaxy (Galaxy Invaders) - η σύγχρονη εκδοχή του καλύτερου παιχνιδιού ρετρό του είδους του Space Invaders (Space Invaders). Αυτό είναι ένα παλιό καλό ...