import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
from collections import Counter

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_validate
from sklearn.svm import SVC

from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.utils import resample

from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline

random_seed=2023

df_12_2019_1 = pd.read_csv('Grade12/ICPSR_37841/DS0001/37841-0001-Data.tsv', sep='\t')
df_12_2019_3 = pd.read_csv('Grade12/ICPSR_37841/DS0003/37841-0003-Data.tsv', sep='\t')


variable_dict = {
 'RESPONDENT_AGE': 'Over18', 
 'V13': 'SchoolRegion',  
 'V49': 'NumberOfSiblings', 
 'V2102': 'CigsSmoked/30Days', 
 'V2106': 'AlcoholicDrinksHowManyTimes/30Days', 
 'V2117': 'MarijuanaHowManyTimes/30Days',  
 'V2118': 'LSDHowManyTimes/Life', 
 'V2121': 'PsychedelicsHowManyTimes/Life', 
 'V2124': 'CocaineHowManyTimes/Life', 
 'V2127': 'AmphetaminesHowManyTimes/Life', 
 'V2133': 'SedativesHowManyTimes/Life', 
 'V2136': 'TranquilizersHowManyTimes/Life', 
 'V2139': 'HerHowManyTimes/Life', 
 'V2142': 'NarcHowManyTimes/Life', 
 'V2150': 'Sex', 
 'V2151': 'Race', 
 'V2152': 'RaisedWhere', 
 'V2153': 'MaritalStatus', 
 'V2155': 'LivesWithFather', 
 'V2156': 'LivesWithMother', 
 'V2157': 'LivesWithSiblings', 
 'V2163': 'FatherEduLvl', 
 'V2164': 'MotherEduLvl', 
 'V2165': 'MotherHadPaidJobWhileGrowingUp', 
 'V2166': 'PoliticalPreference', 
 'V2167': 'PoliticalBeliefs', 
 'V2169': 'ReligiousServiceAttendenceWkly',  
 'V2170': 'ReligionImportance', 
 'V2172': 'HighSchoolProgram', 
 'V2174': 'SelfRateIntelligence', 
 'V2175': 'SchoolDaysMissedIllness/4Weeks', 
 'V2176': 'SchoolDaysMissedSkipped/4Weeks', 
 'V2177': 'SchoolDaysMissedOther/4Weeks', 
 'V2178': 'SkippedClass/4Weeks', 
 'V2179': 'AverageGradeHS', 
 'V2180': 'LikelyToAttendVocationalSchl',
 'V2181': 'LikelyToServeInMilitary', 
 'V2182': 'LikelyToGraduate2YrCollege', 
 'V2183': 'LikelyToGraduate4YrCollege', 
 'V2184': 'LikelyToAttendGraduateSchl', 
 'V2185': 'WantToDoVocationalSchl', 
 'V2186': 'WantToServeInMilitary', 
 'V2187': 'WantToDo2YrCollege', 
 'V2188': 'WantToDo4YrCollege', 
 'V2189': 'WantToDoGradSchl', 
 'V2190': 'WantToDoNo2ndEd', 
 'V2191': 'HrsWorkedPerWeek', 
 'V2193': 'MoneyFromOtherSource', 
 'V2194': 'EveningsOutPerWeek', 
 'V2195': 'DatesHowOften', 
 'V2196': 'MilesDrivenPerWeek', 
 'V2197': 'DrivingTickets', 
 'V2201': 'CarAccidentsLast12Mo',  
 'V2459': 'CrackHowManyTimes/Life', 
}


# Filter data down to just the variable dictionary, removing correlated features in the process
variables = list(variable_dict.keys())
df = pd.concat([df_12_2019_1[variables],df_12_2019_3[variables]], ignore_index=True)

# Remove missing data
missing_criteria = (df == -9).sum() < 0.3*len(df.index)
df = df[missing_criteria.index[missing_criteria]]

df_counts = df.apply(pd.Series.value_counts, axis=1)
missing_data = df_counts.iloc[:, 0]
missing_data = missing_data.fillna(0)
minimal_missing = missing_data.index[missing_data < 1]
df = df[df.index.isin(minimal_missing)]

# Combine Opiate Use data 
df['OpiateUse'] = ((df['V2142'] != 1) + (df['V2139'] != 1)).astype(int)
df = df.drop(['V2142', 'V2139'], axis=1)

# Rename columns using data dictionary 
df.rename(columns=variable_dict, inplace=True)

# Factor categorical data
dummy_cols = ['SchoolRegion', 'Race', 'RaisedWhere', 'MaritalStatus', 'PoliticalPreference', 'PoliticalBeliefs', 'HighSchoolProgram']
dummies = pd.get_dummies(df[dummy_cols], columns=dummy_cols, drop_first=True) 
df = pd.concat([df, dummies], axis=1)
df = df.drop(dummy_cols, axis=1)

# Normalize data
df.replace({False: 0, True: 1}, inplace=True)
df = (df-df.min())/(df.max()-df.min())

df = df.reset_index(drop=True)
df


def pipeline_cross_validation(data, k, pipeline_steps):
    
    folds = np.array_split(data, k)      
    accuracySum = 0
    recallSum = 0
    precisionSum = 0
    
    for i in range(k):
        train = folds.copy() 
        test = folds[i]
        del train[i]
        train = pd.concat(train, sort=False)

        y_train = train.OpiateUse
        X_train = train.drop('OpiateUse', axis=1)

        y_test = test.OpiateUse
        X_test = test.drop('OpiateUse', axis=1)
        
        pipeline = Pipeline(pipeline_steps).fit(X_train, y_train)
        y_pred = pipeline.predict(X_test)

        accuracySum += accuracy_score(y_test, y_pred)
        recallSum += recall_score(y_test, y_pred)
        precisionSum += precision_score(y_test, y_pred)

    
    return [accuracySum/k, recallSum/k, precisionSum/k]


k = 10
df2 = df.iloc[np.random.permutation(len(df))]
classification_scores = pd.DataFrame({'Metric': ['Accuracy', 'Recall', 'Precision']}) 
smt = SMOTE(random_state=random_seed)

model = LogisticRegression(solver='liblinear')
steps = [('smt', smt), ('model', model)]
classification_scores['Logistic Regression'] = pipeline_cross_validation(df2, k, steps)

model = LogisticRegression(solver='liblinear', penalty='l1')
steps = [('smt', smt), ('model', model)]
classification_scores['Lasso Logistic Regression'] = pipeline_cross_validation(df2, k, steps)

model = LogisticRegression(solver='liblinear', penalty='l2')
steps = [('smt', smt), ('model', model)]
classification_scores['Ridge Logistic Regression'] = pipeline_cross_validation(df2, k, steps)

model = SVC(C=1.5, kernel='rbf')
steps = [('smt', smt), ('model', model)]
classification_scores['Support Vector Machine'] = pipeline_cross_validation(df2, k, steps)

model = RandomForestClassifier(n_estimators=100, criterion='entropy', bootstrap=True)
steps = [('smt', smt), ('model', model)]
classification_scores['Random Forest Classifier'] = pipeline_cross_validation(df2, k, steps)


classification_scores


X = df.drop('OpiateUse', axis=1)
y = df.OpiateUse

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_seed)
classification_scores = pd.DataFrame({'Metric': ['Accuracy', 'Recall', 'Precision']})


model = RandomForestClassifier(n_estimators=100, criterion='entropy', bootstrap=True)
steps = [('smt', smt), ('model', model)]
pipeline = Pipeline(steps).fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

feature_importance = pd.DataFrame({'RF Feature Importance': pipeline['model'].feature_importances_}, index=df.columns.drop('OpiateUse'))
feature_importance['Normalized RF Feature Importance'] = (pipeline['model'].feature_importances_ - min(pipeline['model'].feature_importances_)) / (max(pipeline['model'].feature_importances_) - min(pipeline['model'].feature_importances_))
classification_scores['Random Forest Classifier'] = [accuracy_score(y_test, y_pred), recall_score(y_test, y_pred),  precision_score(y_test, y_pred)]


model = LogisticRegression(solver='liblinear', penalty='l1')
steps = [('smt', smt), ('model', model)]
pipeline = Pipeline(steps).fit(X_train, y_train)
y_pred = pipeline.predict(X_test)

feature_importance['Lasso Model Coefficients'] = pipeline['model'].coef_[0]
feature_importance['Lasso Model Coefficients AbsVal'] = abs(pipeline['model'].coef_[0])
classification_scores['Lasso Logistic Regression'] = [accuracy_score(y_test, y_pred), recall_score(y_test, y_pred),  precision_score(y_test, y_pred)]


classification_scores


feature_importance.sort_values(by=['Lasso Model Coefficients'], axis=0, ascending=False)[['Lasso Model Coefficients']].head(15)


feature_importance.sort_values(by=['Lasso Model Coefficients AbsVal'], axis=0, ascending=True)[['Lasso Model Coefficients AbsVal']].head(10)


feature_importance.sort_values(by=['RF Feature Importance'], axis=0, ascending=False)[['RF Feature Importance', 'Normalized RF Feature Importance']].head(15)

	Over18	NumberOfSiblings	CigsSmoked/30Days	AlcoholicDrinksHowManyTimes/30Days	MarijuanaHowManyTimes/30Days	LSDHowManyTimes/Life	PsychedelicsHowManyTimes/Life	CocaineHowManyTimes/Life	AmphetaminesHowManyTimes/Life	SedativesHowManyTimes/Life	...	PoliticalPreference_8	PoliticalBeliefs_2	PoliticalBeliefs_3	PoliticalBeliefs_4	PoliticalBeliefs_5	PoliticalBeliefs_6	PoliticalBeliefs_8	HighSchoolProgram_2	HighSchoolProgram_3	HighSchoolProgram_4
0	1.0	1.000000	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0
1	0.0	0.666667	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0
2	0.0	0.333333	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	0.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0
3	0.0	0.000000	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	1.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0
4	0.0	0.666667	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	1.0	1.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
5372	0.0	1.000000	0.0	0.166667	0.833333	0.0	0.0	0.0	0.000000	0.0	...	1.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0	1.0
5373	0.0	0.666667	0.0	0.833333	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	1.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0
5374	1.0	1.000000	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	1.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0
5375	0.0	0.666667	0.0	0.000000	0.000000	0.0	0.0	0.0	0.000000	0.0	...	0.0	0.0	0.0	0.0	0.0	0.0	1.0	0.0	0.0	0.0
5376	1.0	1.000000	0.0	0.666667	0.000000	0.0	0.0	0.0	0.166667	1.0	...	0.0	0.0	1.0	0.0	0.0	0.0	0.0	0.0	0.0	0.0

	Metric	Logistic Regression	Lasso Logistic Regression	Ridge Logistic Regression	Support Vector Machine	Random Forest Classifier
0	Accuracy	0.870934	0.873164	0.870934	0.960197	0.969124
1	Recall	0.712503	0.705452	0.712503	0.518608	0.533926
2	Precision	0.256677	0.259479	0.256677	0.675429	0.848516

	Lasso Model Coefficients AbsVal
PoliticalBeliefs_6	0.000000
PoliticalBeliefs_3	0.000000
PsychedelicsHowManyTimes/Life	0.000000
SkippedClass/4Weeks	0.000000
WantToDoNo2ndEd	0.000000
Race_3	0.041042
DatesHowOften	0.045323
LikelyToServeInMilitary	0.045986
NumberOfSiblings	0.071284
ReligiousServiceAttendenceWkly	0.080985

	RF Feature Importance	Normalized RF Feature Importance
AmphetaminesHowManyTimes/Life	0.106835	1.000000
TranquilizersHowManyTimes/Life	0.093850	0.878216
AlcoholicDrinksHowManyTimes/30Days	0.067968	0.635471
MarijuanaHowManyTimes/30Days	0.067588	0.631912
LSDHowManyTimes/Life	0.044975	0.419829
CocaineHowManyTimes/Life	0.033543	0.312611
CigsSmoked/30Days	0.032351	0.301428
SedativesHowManyTimes/Life	0.025556	0.237702
PsychedelicsHowManyTimes/Life	0.024643	0.229136
HrsWorkedPerWeek	0.021599	0.200584
FatherEduLvl	0.021066	0.195591
SchoolDaysMissedSkipped/4Weeks	0.018394	0.170526
MotherHadPaidJobWhileGrowingUp	0.017957	0.166426
DatesHowOften	0.017931	0.166190
ReligiousServiceAttendenceWkly	0.017478	0.161937

Monitoring The Future: 12th Grader Opiate Use - Part 1¶

J M Maxwell - Data Science, Sr. Analyst - CTDS¶

Analysis Introduction¶

About The Data¶

Import Python Packages And Data¶

Data Cleaning And Feature Selection¶

Model Selection¶

Model Overview¶

Cross Validation¶

Resolving Class Imbalances¶

SMOTE Cross Validation Pipeline¶

Model Cross Validation¶

Model Classification Scores¶

Model Selection¶

Model Analysis¶

Lasso Logistic Regression Influential Variables¶

Lasso Logistic Regression Least Influential Variables¶

Random Forest Influential Variables¶

Conclusions¶

Future Work¶

	Metric	Random Forest Classifier	Lasso Logistic Regression
0	Accuracy	0.964684	0.859665
1	Recall	0.507692	0.753846
2	Precision	0.846154	0.266304

	Lasso Model Coefficients
TranquilizersHowManyTimes/Life	7.349860
LSDHowManyTimes/Life	6.944851
CocaineHowManyTimes/Life	4.263134
AmphetaminesHowManyTimes/Life	4.144661
CigsSmoked/30Days	2.133697
AlcoholicDrinksHowManyTimes/30Days	1.698574
MarijuanaHowManyTimes/30Days	1.547477
SedativesHowManyTimes/Life	1.219974
LivesWithFather	0.978814
MotherHadPaidJobWhileGrowingUp	0.821461
WantToServeInMilitary	0.697673
AverageGradeHS	0.606819
LikelyToAttendVocationalSchl	0.595450
LikelyToAttendGraduateSchl	0.467004
MotherEduLvl	0.348251