Association rule mining is a well-known method for identifying frequently occurring patterns in the data in the form of rules (association rules). Association rules have the property that they are human-readable and, therefore, allow comprehensible predictions, in contrast to many other prediction algorithms. Classical association rule mining algorithms, such as Apriori or FP-growth, cannot process numerical data (quantitative variables), which limits their applicability. In the past, Aumann et al. introduced an approach that allows the processing of quantitative variables on the right side of a rule. However, this approach uses summary statistics to identify rules, which may provide a skewed insight into the data. This work introduces a novel method for processing quantitative variables on the right side of a rule based on the approach of Aumann et al.. Our approach is based on applying the Kullback-Leibler divergence and thereby introduces a holistic view of the data distribution to identify rules.
We demonstrate our approach using the example of predicting the length of stay of patients in intensive care units (ICU LOS). The ICU LOS describes the number of days a patient spends in the intensive care unit during a hospital stay. Predicting the ICU LOS optimizes hospital resources, such as bed utilization.
Das Association Rule Mining ist eine bekannte Methode, um häufig auftretende Muster in den Daten in Form von Regeln (Assoziationsregeln) zu identifizieren. Assoziationsregeln haben die Eigenschaft, dass die Regeln menschenlesbar sind und dadurch, im Gegensatz zu vielen anderen Prädiktionsalgorithmen, nachvollziehbare Vorhersagen zulassen. Klassische Algorithmen des Association Rule Minings, wie Apriori oder FP-growth, sind nicht in der Lage numerische Daten (quantitative Variablen) zu prozessieren, was die Anwendbarkeit dieser Algorithmen einschränkt. Aumann et al. haben in der Vergangenheit einen Ansatz eingeführt, welcher die Verarbeitung von quantitativen Variablen auf der rechten Seite einer Regel zulässt. Zur Identifizierung von Regeln nutzt dieser Ansatz jedoch summary statistics (es werden also nur einzelne Momente betrachtet), welche mitunter eine verzerrte Einsicht in die Daten liefern. Diese Arbeit führt auf Basis des Ansatzes von Aumann et al. eine neue Metho-de zur Verarbeitung quantitativer Variablen auf der rechten Seite einer Regel ein. Unser Ansatz basiert auf der Anwendung der Kullback-Leibler-Divergenz und führt dadurch eine ganzheitliche Betrachtung der Datenverteilung zur Identifizierung von Regeln ein.
Wir demonstrieren unseren Ansatz am Beispiel der Vorhersage der Verweildauer von Patienten auf Intensivstation (Intensivverweildauer). Die Intensivverweildauer beschreibt die Anzahl der Tage, die sich ein Patient während eines Krankenhausaufenthaltes auf der Intensivstation befindet. Die Vorhersage der Intensivverweildauer dient insbesondere zur Ressourcenoptimierung im Krankenhaus. So kann durch eine Abschätzung der Intensivverweildauer die Bettenauslastung optimiert werden.