3

Νέα της Contia

Biomedical QA

Στατιστικά Ενδεικτικές Ιστοσελίδες Ενδεικτικά e-shop Γραφιστική Custom Συστήματα Έτοιμα Συστήματα WordPress Plugins contia.gr is.contia.gr contia.org contia.eu +30 2310 262684 +30 6980252659 +30 …

Η μεθοδολογική προσέγγιση της μελέτης μας περιλαμβάνει τρεις φάσεις. Στην πρώτη φάση, απόκτησης δεδομένων, κατεβάζουμε μια λίστα από καταθέσεις (filings) από την ιστοσελίδα της Επιτροπής Κεφαλαιαγοράς των ΗΠΑ (SEC). Στη δεύτερη φάση, προεπεξεργασίας, φιλτράρουμε τα δεδομένα και εξάγουμε τις καταθέσεις για τις αρχικές δημόσιες προσφορές (IPOs). Στη φάση αυτή, οι καταθέσεις IPO και μια προκαθορισμένη λίστα από κλειδιά λέξεις (keyphrases) αναπαρίστανται ως διανύσματα. Τέλος, στην τρίτη φάση, εκτίμησης, υπολογίζεται η ομοιότητα μεταξύ των διανυσμάτων των καταθέσεων IPO και των διανυσμάτων των λέξεων-κλειδιών.

Απόκτηση Δεδομένων

Στη φάση αυτή, στόχος μας ήταν η απόκτηση των καταθέσεων IPO από το 2010 έως το 2020. Χρησιμοποιήσαμε το σύστημα ηλεκτρονικής διάθεσης EDGAR της SEC, αναζητώντας τις καταθέσεις με τη φόρμα 424B4, η οποία περιέχει τις καταθέσεις IPO. Για την πρόσβαση στο σύστημα, χρησιμοποιήσαμε την API EDGAR RESTful και τη βιβλιοθήκη Python sec-edgar-downloader. Προκειμένου να περιορίσουμε το εύρος αναζητήσεων, χρησιμοποίησαμε μια λίστα εταιρειών από την βάση δεδομένων SCOOP Ratings.

Προεπεξεργασία

Κατά τη διάρκεια της απόκτησης δεδομένων, παρατηρήσαμε ότι πολλές καταθέσεις δεν ήταν IPOs ή δεν πληρούσαν τις προϋποθέσεις μας. Για την επίλυση του προβλήματος, εφαρμόσαμε ένα σύνολο φίλτρων. Ειδικότερα, αφαιρέσαμε καταθέσεις που αφορούσαν ADRs, REITs, Blank Check Companies (BCCs) και SPACs. Επίσης, αφαιρέσαμε καταθέσεις με τιμή προσφοράς κάτω από 5 δολάρια ανά μετοχή. Τέλος, για τις καταθέσεις που περιείχαν εικόνες αντί για κείμενο, χρησιμοποιήσαμε τεχνολογία OCR με τη βιβλιοθήκη Tesseract για να αναγνωρίσουμε τα κείμενα.

Εκτίμηση

Στη φάση εκτίμησης, αναπτύξαμε έναν αλγόριθμο που υπολογίζει την ομοιότητα μεταξύ των διανυσμάτων των καταθέσεων IPO και των διανυσμάτων των λέξεων-κλειδιών. Αυτή η διαδικασία επιτρέπει την εξαγωγή χρήσιμων πληροφοριών από τα δεδομένα και την αξιολόγηση της συνάφειας των καταθέσεων με τις καθορισμένες λέξεις-κλειδιά. Η μεθοδολογία αυτή αποτελεί μια ολοκληρωμένη προσέγγιση για την ανάλυση των IPOs και την εξαγωγή χρηστικών πληροφοριών από μεγάλα σύνολα δεδομένων.