import pandas as pd
import numpy as np
from sklearn import svm
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

start_time = pd.Timestamp("2019-10-01 00:00:00")
end_time = pd.Timestamp("2020-04-04 00:00:00")

avy_data = pd.read_csv("avalanches.csv", parse_dates=['Date'])
avy_data = avy_data.rename(columns={'Date': 'date'})

# only Salt Lake
avy_data = avy_data.loc[avy_data.Region == 'Salt Lake']

# subset select time period
avy_data = avy_data[((avy_data.date >= start_time + pd.Timedelta(days=1)) &
                     (avy_data.date <= end_time))]

# count avalanches reported per day
avy_count = avy_data.date.value_counts()

# fill in missing datetimes
idx = pd.date_range(start_time + pd.Timedelta(days=1), end_time)
avy_count = avy_count.reindex(idx)
avy_count = avy_count.fillna(0)

# convert to any avalanche seen vs no avalanches seen
avy = avy_count.astype(bool).astype(int)
avy = avy.to_numpy()

snotel = pd.read_csv("snotel.csv", parse_dates=['Date'])


# subset for select time period
snotel = snotel[(snotel.Date > start_time + pd.Timedelta(hours=9)) &
                (snotel.Date <= end_time + pd.Timedelta(hours=9))]

# fill in missing dates
snotel = snotel.set_index(['Date'])
idx = pd.date_range(snotel.index.min(), snotel.index.max(), freq='H')
snotel = snotel.reindex(idx)

# find nulls and interpolate
snotel = snotel.interpolate(axis=0)

# convert feet or inches to inches
def conv_to_in(x):
    if x.endswith("'"):
        return float(x[:-1]) * 12
    if x.endswith('"'):
        return float(x[:-1])


# convert feet or inches to feet
def conv_to_ft(x):
    x = x.replace(',', '')
    if x.endswith("'"):
        return float(x[:-1])
    if x.endswith('"'):
        return float(x[:-1]) / 12


# parse sky_unparsed column
def parse_sky(x):
    if pd.isna(x):
        return x
    else:
        pieces = x.split()

        if len(pieces) == 1:
            return 0
        else:
            highest = pieces[-2]
            return int(highest[4:6])

noaa = pd.read_csv("noaa.csv", 
                   usecols= ['DATE', 'HourlySkyConditions', 'HourlyWindSpeed'],
                   dtype={'HourlySkyConditions': str, 'HourlyWindSpeed': str},
                   parse_dates=['DATE'])

noaa = noaa.rename(columns={'DATE': 'date',
                            'HourlySkyConditions': 'sky_unparsed',
                            'HourlyWindSpeed': 'windspeed'})

# subset for select time period
noaa = noaa[(noaa.date > start_time + pd.Timedelta(hours=9)) &
            (noaa.date <= end_time + pd.Timedelta(hours=9))]

# get rid of rows that don't make sense (are just a number)
noaa = noaa.loc[~(noaa['sky_unparsed'].apply(lambda x: str(x).isdigit()))]

# parse sky_unparsed column
noaa['sky'] = noaa['sky_unparsed'].apply(lambda x: parse_sky(x))
noaa = noaa.drop(['sky_unparsed'], axis=1)

# clean windspeed data
noaa['windspeed'] = noaa['windspeed'].replace('NaN', pd.NA).astype(float)

# interpolate the missing data
noaa = noaa.interpolate(axis=0)

# round datetimes
noaa['date'] = noaa['date'].apply(lambda x: x.round('60min'))

# remove rows with duplicate datetimes
noaa = noaa.drop_duplicates('date')

# fill in missing datetimes
noaa = noaa.set_index(['date'])
idx = pd.date_range(noaa.index.min(), noaa.index.max(), freq='H')
noaa = noaa.reindex(idx)
noaa = noaa.interpolate(axis=0)

# combine with snotel data
exog_og = noaa.join(snotel)
exog_og = exog_og.to_numpy()

# flatten days
study_interval = (end_time - start_time).days
exog = [exog_og[i*24:(i+1)*24].flatten() for i in range(0, study_interval)]
exog = np.asarray(exog)

svm_clf = svm.SVC(gamma=0.000001, C=100)
X_train, X_test, y_train, y_test = train_test_split(exog,
                                                    avy,
                                                    test_size=0.5,
                                                    shuffle=True)
svm_clf.fit(X_train, y_train)
predicted = svm_clf.predict(X_test)

# Some results for kicks
print("Classification report for classifier %s:\n%s\n"
      % (svm_clf, classification_report(y_test, predicted)))
disp = ConfusionMatrixDisplay.from_estimator(svm_clf, X_test, y_test)
disp.figure_.suptitle("Confusion Matrix")

plt.show()

Classification report for classifier SVC(C=100, gamma=1e-06):
              precision    recall  f1-score   support

           0       0.89      0.59      0.71        41
           1       0.74      0.94      0.83        52

    accuracy                           0.78        93
   macro avg       0.82      0.76      0.77        93
weighted avg       0.81      0.78      0.78        93

Avalanche Prediction via Machine Learning (so I begin...)¶

Introduction¶

A. The datasets¶

1. Avalanches:¶

2. Snow data:¶

3. Wind and Sky Cover data:¶

B. Training and Testing¶

C. Future plans¶