- "Kunnen we de categorie van een klacht gaan voorspellen?"
- TF-IDF
- Cross-Validation
- Random Forest
- Linear Support Vector Machine
- Multinomial Naive Bayes
- Logistic Regression
- K-nearest neighbors
- Confusion Matrix
- Pre-processing optimaliseren: meervouden, stamvorm en vervoegingen wegfilteren
- "Kunnen we de verschillende categorieën van de dataset beter gaan onderverdelen?"
- K-means, DBScan, Topic Modeling (LDA)
- Modellen van sprint 2 nog evalueren en resultaten aantonen aan de hand van experimenten
- klachten in een gevonden cluster gaan onderzoeken
- LDA
- cluster center weergeven (afhankelijk van algoritme)
- duplicate/verwante klachten zoeken (als experiment uitwerken om te kijken of feature extraction goed werkt)
- t-SNE plots gebruiken en interpreteren (visualiseren van hoog dimensionale data)
- niet trainen op 2D/3D data bekomen door PCA (te veel dataverlies!)
- "Wat is het effect van het aantal financiële assets van de verschillende banken op het aantal gerapporteerde klachten bij deze banken?"
- "Kunnen we de kans dat een klacht opgelost geraakt gaan voorspellen?"
- "Kunnen we de geografische locatie van een klacht gaan voorspellen?"
- "Kunnen we de reactie van een bedrijf op een klacht gaan voorspellen?"
- "Kunnen we het sentiment van een klacht bepalen?"
- Meerdere invoerparameters gebruiken voor het model (verschillen bepalen indien bepaalde parameters weggelaten worden)
- Cascading classifiers
- Sentiment analysis & classification