Spaces:

amaai-lab
/

MineROI-Net

Sleeping

App Files Files Community

sithuWiki commited on 27 days ago

Commit

a8a9175

verified ·

1 Parent(s): 32e930f

update preprocessing.py

Browse files

Files changed (1) hide show

preprocessing.py +135 -61

preprocessing.py CHANGED Viewed

@@ -17,82 +17,156 @@ def engineer_features(blockchain_df):
     return df
-def prepare_miner_features(blockchain_df, miner_name, miner_price, region='texas'):
-    """Add miner-specific features - EXACTLY 14 features"""
     df = blockchain_df.copy()
     specs = MINER_SPECS[miner_name]
     # Keep only these columns from blockchain data
-    df = df[['date', 'bitcoin_price', 'difficulty', 'fees', 'hashrate', 'revenue', 'block_reward']].copy()
-    df['date'] = pd.to_datetime(df['date'])
-    # Add miner features
-    df['machine_price'] = miner_price
-    df['machine_hashrate'] = specs['hashrate']
-    df['power'] = specs['power']
-    df['efficiency'] = specs['efficiency']
     # Calculate age_days (days since miner was released)
-    release_date = pd.to_datetime(specs['release_date'])
-    df['age_days'] = (df['date'] - release_date).dt.days
     # Days since halving
-    df['days_since_halving'] = df['date'].apply(get_days_since_halving)
-    # Revenue potential
-    hashrate_hs = df['machine_hashrate'] * 1e12
-    btc_per_day = (hashrate_hs * 86400) / (df['difficulty'] * (2**32)) * (df['block_reward'] + (df['fees']/144))
-    df['Revenue_Potential'] = btc_per_day * df['bitcoin_price']
-    # Electricity rate
-    # df['electricity_rate'] = ELECTRICITY_RATES.get(region, 0.10)
-    df['electricity_rate'] = df['date'].dt.date.apply(
-        lambda day: get_electricity_rate(region, day)
     )
     return df
-def get_latest_sequence(blockchain_df, miner_name, miner_price, region='texas', window_size=30):
-    """Get the most recent sequence for prediction - EXACTLY 14 features in CORRECT ORDER"""
     df_features = engineer_features(blockchain_df)
-    df_miner = prepare_miner_features(df_features, miner_name, miner_price, region)
     # CRITICAL: This order MUST match your training data CSV exactly!
-    # Your training CSV: bitcoin_price,difficulty,fees,hashrate,revenue,machine_price,machine_hashrate,power,efficiency,block_reward,age_days,days_since_halving,Revenue_Potential,electricity_rate
     feature_cols = [
-        'bitcoin_price',      # 1
-        'difficulty',         # 2
-        'fees',              # 3
-        'hashrate',          # 4
-        'revenue',           # 5
-        'machine_price',     # 6
-        'machine_hashrate',  # 7
-        'power',             # 8
-        'efficiency',        # 9
-        'block_reward',      # 10
-        'age_days',          # 11
-        'days_since_halving',# 12
-        'Revenue_Potential', # 13
-        'electricity_rate'   # 14
     ]
     df_miner = df_miner.dropna().reset_index(drop=True)
     if len(df_miner) < window_size:
-        raise ValueError(f"Not enough data: need {window_size} days, have {len(df_miner)}")
-    # Get last window_size days with exactly 14 features
-    sequence = df_miner[feature_cols].values[-window_size:]
-    latest_date = df_miner['date'].iloc[-1]
-    # Verify shape
-    if sequence.shape[1] != 14:
-        raise ValueError(f"Expected 14 features, got {sequence.shape[1]}")
-    return sequence, feature_cols, latest_date

     return df
+def prepare_miner_features(
+    blockchain_df,
+    miner_name,
+    miner_price,
+    region="texas",
+    machine_hashrate=None,
+    power=None,
+    efficiency=None,
+    electricity_rate=None,
+):
+    """
+    Add miner-specific features - EXACTLY 14 features.
+    Now uses user-specified:
+    - machine_price
+    - machine_hashrate
+    - power
+    - efficiency
+    - electricity_rate
+    If any of these are None, we fall back to MINER_SPECS / region,
+    but for your app you will always pass explicit values.
+    """
     df = blockchain_df.copy()
     specs = MINER_SPECS[miner_name]
     # Keep only these columns from blockchain data
+    df = df[[
+        "date",
+        "bitcoin_price",
+        "difficulty",
+        "fees",
+        "hashrate",
+        "revenue",
+        "block_reward",
+    ]].copy()
+    df["date"] = pd.to_datetime(df["date"])
+    # ---- user-provided constants (same value for all 30 days) ----
+    df["machine_price"] = float(miner_price)
+    if machine_hashrate is not None:
+        df["machine_hashrate"] = float(machine_hashrate)
+    else:
+        df["machine_hashrate"] = specs["hashrate"]
+    if power is not None:
+        df["power"] = float(power)
+    else:
+        df["power"] = specs["power"]
+    if efficiency is not None:
+        df["efficiency"] = float(efficiency)
+    else:
+        df["efficiency"] = specs["efficiency"]
     # Calculate age_days (days since miner was released)
+    release_date = pd.to_datetime(specs["release_date"])
+    df["age_days"] = (df["date"] - release_date).dt.days
     # Days since halving
+    df["days_since_halving"] = df["date"].apply(get_days_since_halving)
+    # Revenue potential (same as your original code)
+    hashrate_hs = df["machine_hashrate"] * 1e12
+    btc_per_day = (
+        (hashrate_hs * 86400)
+        / (df["difficulty"] * (2**32))
+        * (df["block_reward"] + (df["fees"] / 144))
     )
+    df["Revenue_Potential"] = btc_per_day * df["bitcoin_price"]
+    # ---- electricity_rate constant across all rows ----
+    if electricity_rate is not None:
+        df["electricity_rate"] = float(electricity_rate)
+    else:
+        df["efficiency"] = specs["electricity_rate"]
+        # # fallback: keep old behaviour if not provided
+        # df["electricity_rate"] = df["date"].dt.date.apply(
+        #     lambda day: get_electricity_rate(region, day)
+        # )
     return df
+def get_latest_sequence(
+    blockchain_df,
+    miner_name,
+    miner_price,
+    region="texas",
+    window_size=30,
+    machine_hashrate=None,
+    power=None,
+    efficiency=None,
+    electricity_rate=None,
+):
+    """
+    Get the most recent sequence for prediction - EXACTLY 14 features in CORRECT ORDER.
+    Now also accepts user-specified:
+    - machine_hashrate
+    - power
+    - efficiency
+    - electricity_rate
+    """
     df_features = engineer_features(blockchain_df)
+    df_miner = prepare_miner_features(
+        df_features,
+        miner_name,
+        miner_price,
+        region,
+        machine_hashrate=machine_hashrate,
+        power=power,
+        efficiency=efficiency,
+        electricity_rate=electricity_rate,
+    )
     # CRITICAL: This order MUST match your training data CSV exactly!
     feature_cols = [
+        "bitcoin_price",       # 1
+        "difficulty",          # 2
+        "fees",                # 3
+        "hashrate",            # 4
+        "revenue",             # 5
+        "machine_price",       # 6
+        "machine_hashrate",    # 7
+        "power",               # 8
+        "efficiency",          # 9
+        "block_reward",        # 10
+        "age_days",            # 11
+        "days_since_halving",  # 12
+        "Revenue_Potential",   # 13
+        "electricity_rate",    # 14
     ]
     df_miner = df_miner.dropna().reset_index(drop=True)
     if len(df_miner) < window_size:
+        raise ValueError(
+            f"Not enough data to build a {window_size}-day window, got {len(df_miner)} rows."
+        )
+    df_window = df_miner.tail(window_size).reset_index(drop=True)
+    sequence = df_window[feature_cols].values.astype(float)
+    pred_date = df_window["date"].iloc[-1]
+    return sequence, df_window, pred_date