Skip to content

WouterStemgee/applied-machine-learning-consumer-complaints-database

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Applied Machine Learning: Project

Research Question

  • "Kunnen we de categorie van een klacht gaan voorspellen?"

Technical implementations

  • TF-IDF
  • Cross-Validation
    • Random Forest
    • Linear Support Vector Machine
    • Multinomial Naive Bayes
    • Logistic Regression
    • K-nearest neighbors
  • Confusion Matrix

Retrospect (sprint 1)

  • Pre-processing optimaliseren: meervouden, stamvorm en vervoegingen wegfilteren

Research Question

  • "Kunnen we de verschillende categorieën van de dataset beter gaan onderverdelen?"

Technical implementations

  • K-means, DBScan, Topic Modeling (LDA)

Retrospect (sprint 2)

  • Modellen van sprint 2 nog evalueren en resultaten aantonen aan de hand van experimenten
    • klachten in een gevonden cluster gaan onderzoeken
    • LDA
  • cluster center weergeven (afhankelijk van algoritme)
  • duplicate/verwante klachten zoeken (als experiment uitwerken om te kijken of feature extraction goed werkt)
  • t-SNE plots gebruiken en interpreteren (visualiseren van hoog dimensionale data)
  • niet trainen op 2D/3D data bekomen door PCA (te veel dataverlies!)

Research Questions

Data Analysis

  • "Wat is het effect van het aantal financiële assets van de verschillende banken op het aantal gerapporteerde klachten bij deze banken?"

Machine Learning

  • "Kunnen we de kans dat een klacht opgelost geraakt gaan voorspellen?"
  • "Kunnen we de geografische locatie van een klacht gaan voorspellen?"
  • "Kunnen we de reactie van een bedrijf op een klacht gaan voorspellen?"

Extra

Technical implementations

  • Meerdere invoerparameters gebruiken voor het model (verschillen bepalen indien bepaalde parameters weggelaten worden)
  • Cascading classifiers
  • Sentiment analysis & classification