TASK:冷启动热度推荐；

2025-06-10 10:54:20 +08:00
parent a14e6051b1
commit d39dee851f
4 changed files with 400 additions and 16 deletions
--- a/app/api/api_brand_dna_initialize.py
+++ b/app/api/api_brand_dna_initialize.py
@@ -0,0 +1,212 @@
 import io
 import logging
 import sys
 import time
 from typing import List
 from collections import defaultdict
 import numpy as np
 from apscheduler.schedulers.background import BackgroundScheduler
 from apscheduler.triggers.cron import CronTrigger
 from fastapi import HTTPException, APIRouter
 from app.service.recommend.service import load_resources, matrix_data
 import pymysql
 from app.core.config import DB_CONFIG, TABLE_CATEGORIES, RECOMMEND_PATH_PREFIX
 from minio import Minio
 import torch
 from torchvision import models, transforms
 from PIL import Image
 import os
 from fastapi.responses import JSONResponse
 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
 logger = logging.getLogger()
 router = APIRouter()
 # MinIO 配置
 minio_client = Minio(
    "www.minio.aida.com.hk:12024",
    access_key="admin",
    secret_key="Aidlab123123!",
    secure=True
 )
 transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225]),
 ])
 # ResNet50（去掉最后全连接层）
 resnet_model = models.resnet50(pretrained=True)
 resnet_model = torch.nn.Sequential(*list(resnet_model.children())[:-1])
 resnet_model.eval()
 def get_sketch_image_from_minio(sketch_path: str):
    path_parts = sketch_path.split('/', 1)
    if len(path_parts) != 2:
        return None
    bucket_name, file_name = path_parts
    try:
        obj = minio_client.get_object(bucket_name, file_name)
        img = Image.open(io.BytesIO(obj.read()))
        return transform(img).unsqueeze(0)
    except Exception as e:
        logger.warning(f"Fetch image failed [{sketch_path}]: {e}")
        return None
 def extract_feature_vector_from_resnet(sketch_path: str) -> np.ndarray:
    img_tensor = get_sketch_image_from_minio(sketch_path)
    if img_tensor is None:
        return np.zeros(2048, dtype=np.float32)
    with torch.no_grad():
        vec = resnet_model(img_tensor)  # [1, 2048, 1, 1]
        return vec.squeeze().cpu().numpy()
 # 预加载
 BRAND_FEATURES = np.load(f'{RECOMMEND_PATH_PREFIX}brand_feature.npy', allow_pickle=True).item()
 SYSTEM_FEATURES = np.load(f'{RECOMMEND_PATH_PREFIX}sketch_feature_dict.npy', allow_pickle=True).item()
 def save_sketch_to_iid():
    sketch_to_iid = {
        sketch_path: iid
        for iid, sketch_path in enumerate(SYSTEM_FEATURES.keys(), start=1)
    }
    np.save(f"{RECOMMEND_PATH_PREFIX}sketch_to_iid.npy", sketch_to_iid)
 def load_sketch_to_iid():
    path = f"{RECOMMEND_PATH_PREFIX}sketch_to_iid.npy"
    if os.path.exists(path):
        return np.load(path, allow_pickle=True).item()
    save_sketch_to_iid()
    return np.load(path, allow_pickle=True).item()
 sketch_to_iid = load_sketch_to_iid()
 def getNewCategory(gender: str, sketch_category: str) -> str:
    return f"{gender.lower()}_{sketch_category.lower()}"
 def get_category_from_path(path: str) -> str:
    parts = path.split('/')
    if len(parts) >= 4:
        return f"{parts[2].lower()}_{parts[3].lower()}"
    return "unknown_unknown"
 def load_brand_matrix():
    """单独加载 brand_matrix 和 brand_index_map"""
    mat_path = f"{RECOMMEND_PATH_PREFIX}brand_matrix.npy"
    idx_path = f"{RECOMMEND_PATH_PREFIX}brand_index_map.npy"
    try:
        matrix = np.load(mat_path)
        index_map = np.load(idx_path, allow_pickle=True).item()
    except FileNotFoundError:
        matrix = np.zeros((0, len(sketch_to_iid)), dtype=np.float32)
        index_map = {}
    return matrix, index_map
 def cosine_similarity(vec1, vec2):
    """计算余弦相似度（增加零值处理）"""
    norm = np.linalg.norm(vec1) * np.linalg.norm(vec2)
    return np.dot(vec1, vec2) / (norm + 1e-10) if norm != 0 else 0.0
 def calculate_brand_matrix(sketch_data, brand_id: int) -> np.ndarray:
    # 1. 收集品牌-分类-特征
    brand_feature = defaultdict(lambda: defaultdict(list))
    for _id, sketch_path, gender, sketch_category in sketch_data:
        cat = getNewCategory(gender, sketch_category)
        feat = BRAND_FEATURES.get(_id) or extract_feature_vector_from_resnet(sketch_path)
        brand_feature[(brand_id, cat)][_id].append(feat)
    # 2. 构建 sketch 索引
    sketch_list = sorted(sketch_to_iid.values())
    sketch_index = {iid: idx for idx, iid in enumerate(sketch_list)}
    n_sketch = len(sketch_list)
    # 3. 加载或初始化矩阵
    brand_matrix, brand_index_map = load_brand_matrix()
    # 4. 增加/更新 行
    if brand_id in brand_index_map:
        row_idx = brand_index_map[brand_id]
    else:
        row_idx = brand_matrix.shape[0]
        brand_index_map[brand_id] = row_idx
        brand_matrix = np.vstack([
            brand_matrix,
            np.zeros((1, n_sketch), dtype=np.float32)
        ])
    # 5. 计算品牌-分类平均向量
    brand_avg = {}
    for key, id_dict in brand_feature.items():
        all_feats = [v for feats in id_dict.values() for v in feats]
        if all_feats:
            brand_avg[key] = np.mean(all_feats, axis=0)
    # 6. 填充相似度
    for sketch_path, sys_vec in SYSTEM_FEATURES.items():
        iid = sketch_to_iid.get(sketch_path)
        if not iid or iid not in sketch_index:
            continue
        cat_key = (brand_id, get_category_from_path(sketch_path))
        avg_vec = brand_avg.get(cat_key)
        if avg_vec is not None:
            cos_sim = cosine_similarity(avg_vec, sys_vec)
            brand_matrix[row_idx, sketch_index[iid]] = cos_sim
    # 7. 持久化
    np.save(f"{RECOMMEND_PATH_PREFIX}brand_feature_matrix.npy", brand_matrix)
    np.save(f"{RECOMMEND_PATH_PREFIX}brand_index_map.npy", brand_index_map)
    # 返回该品牌对应行
    return brand_matrix[row_idx:row_idx+1]
@router.get("/brand_dna_initialize/{brand_id}")
 async def brand_dna_initialize(brand_id: int):
    conn = None
    try:
        conn = pymysql.connect(**DB_CONFIG)
        cursor = conn.cursor()
        cursor.execute("""
            SELECT id, img_url, gender, category
              FROM product_image_attribute
             WHERE library_id IN (
                 SELECT library_id
                   FROM brand_rel_library
                  WHERE brand_id = %s
             )
        """, (brand_id,))
        sketch_data = cursor.fetchall()
        # 触发计算并持久化，若内部出错会抛异常
        _ = calculate_brand_matrix(sketch_data, brand_id)
        # 返回成功
        return {"success": True}
    except HTTPException:
        # 已经是明确的 HTTPException，直接抛出
        raise
    except Exception as e:
        logger.error(f"品牌初始化失败 [{brand_id}]: {e}", exc_info=True)
        # 返回失败的 JSON，同时设置 500 状态码
        return JSONResponse(
            status_code=500,
            content={"success": False, "message": "品牌初始化失败"}
        )
    finally:
        if conn:
            conn.close()
--- a/app/api/api_recommendation.py
+++ b/app/api/api_recommendation.py
@@ -3,7 +3,10 @@ import logging
 import sys
 import time
 from typing import List
-
+import os
 import json
 import math
 import random
 import numpy as np
 from apscheduler.schedulers.background import BackgroundScheduler
 from apscheduler.triggers.cron import CronTrigger
@@ -31,18 +34,44 @@ async def startup_event():
    scheduler.start()
    logger.info("定时任务已启动")
 def softmax(scores):
    max_score = max(scores)
    exp_scores = [math.exp(s - max_score) for s in scores]
    sum_exp = sum(exp_scores)
    return [s / sum_exp for s in exp_scores]
 def get_random_recommendations(category: str, num: int) -> List[str]:
-    """全品类随机推荐"""
+    """根据预加载热度向量推荐（冷启动）"""
    try:
        heat_data = matrix_data.get("heat_data", {})
        if category not in heat_data:
            raise ValueError(f"热度数据缺少类别 {category}，使用随机推荐")
        heat_dict = heat_data[category]  # {url: score}
        urls = list(heat_dict.keys())
        scores = list(heat_dict.values())
        if not urls:
            raise ValueError("该类别下无热度记录，使用随机推荐")
        probs = softmax(scores)
        sample_size = min(num, len(urls))
        sampled_urls = random.choices(urls, weights=probs, k=sample_size)
        return sampled_urls
    except Exception as e:
        # 回退：完全随机推荐
        all_iids = list(matrix_data["iid_to_sketch"].keys())
    # 优先从当前品类选择
        category_iids = matrix_data["category_to_iids"].get(category, all_iids)
    # 确保不超出实际数量
        sample_size = min(num, len(category_iids))
        sampled = np.random.choice(category_iids, size=sample_size, replace=False)
        return [matrix_data["iid_to_sketch"][iid] for iid in sampled]
-@router.get("/recommend/{user_id}/{category}/{num_recommendations}", response_model=List[str])
+
-async def get_recommendations(user_id: int, category: str, num_recommendations: int = 10):
+@router.get("/recommend/{user_id}/{category}/{num_recommendations}/{brand_id}/{brand_scale}", response_model=List[str])
 async def get_recommendations(user_id: int, category: str, brand_id: int, brand_scale: float, num_recommendations: int = 10):
    """
    :param user_id: 4
    :param category: female_skirt
@@ -95,7 +124,7 @@ async def get_recommendations(user_id: int, category: str, num_recommendations:
                raw_feat_scores = matrix_data["feature_matrix"][user_idx_feature, valid_sketch_idxs_feature]
                raw_feat_scores = (raw_feat_scores - np.min(raw_feat_scores)) / (
                        np.max(raw_feat_scores) - np.min(raw_feat_scores) + 1e-8)
-                processed_feat = raw_feat_scores * 0.3
+                processed_feat = raw_feat_scores
            else:
                processed_feat = np.array([])
@@ -104,7 +133,22 @@ async def get_recommendations(user_id: int, category: str, num_recommendations:
            matrix_data["cached_valid_idxs"][cache_key] = valid_sketch_idxs_inter
        # 合并分数
-        final_scores = processed_inter + processed_feat
+        if brand_id is not None:
            if brand_id is not None:
                brand_idx_feature = matrix_data["brand_index_map"].get(brand_id)
                if brand_idx_feature is not None and valid_sketch_idxs_feature:
                    raw_brand_feat_scores = matrix_data["brand_feature_matrix"][
                        brand_idx_feature, valid_sketch_idxs_feature]
                    raw_brand_feat_scores = (raw_brand_feat_scores - np.min(raw_brand_feat_scores)) / (
                            np.max(raw_brand_feat_scores) - np.min(raw_brand_feat_scores) + 1e-8)
                    processed_brand_feat = raw_brand_feat_scores
                    final_scores = processed_inter + 0.3 * ((1 - brand_scale) * processed_feat + brand_scale * processed_brand_feat)
                else:
                    final_scores = processed_inter + 0.3 * processed_feat
            else:
                final_scores = processed_inter + 0.3 * processed_feat
        else:
            final_scores = processed_inter + 0.3 * processed_feat
        valid_sketch_idxs = matrix_data["cached_valid_idxs"][cache_key]
        # 概率采样
--- a/app/service/recommend/scheduled_task.py
+++ b/app/service/recommend/scheduled_task.py
@@ -14,6 +14,9 @@ import matplotlib.pyplot as plt
 from scipy.sparse import csr_matrix
 import matplotlib.font_manager as fm
 from scipy import sparse
 import pandas as pd
 from datetime import datetime, timedelta
 import json
 from app.core.config import DB_CONFIG, TABLE_CATEGORIES, RECOMMEND_PATH_PREFIX
@@ -50,6 +53,13 @@ minio_client = Minio(
 # 预加载系统sketch特征向量
 SYSTEM_FEATURES = np.load(f'{RECOMMEND_PATH_PREFIX}sketch_feature_dict.npy', allow_pickle=True).item()
 # 行为权重和衰减系数
 BEHAVIOR_CONFIG = {
    'portfolioClick': {'weight': 1, 'decay': 0.3},
    'portfolioLike': {'weight': 2, 'decay': 0.2},
    'secondCreation': {'weight': 3, 'decay': 0.1},
    'sketchLike': {'weight': 4, 'decay': 0}  # 不衰减
 }
 # 保存sketch_to_iid到文件
 def save_sketch_to_iid():
@@ -418,9 +428,107 @@ def cosine_similarity(vec1, vec2):
    return np.dot(vec1, vec2) / (norm + 1e-10) if norm != 0 else 0.0
 def fetch_user_behavior_data(days=30):
    """从MySQL获取用户行为数据（整合旧查询和新需求）"""
    conn = None
    try:
        conn = pymysql.connect(**DB_CONFIG)
        # 计算日期范围
        end_date = datetime.now()
        start_date = end_date - timedelta(days=days)
        # 整合查询（获取完整行为数据）
        query = f"""
        SELECT 
            account_id,
            behavior_type,
            gender,
            category,
            url,
            create_time
        FROM user_behavior
        WHERE create_time BETWEEN '{start_date}' AND '{end_date}'
        """
        df = pd.read_sql(query, conn)
        logging.info(f"成功读取{len(df)}条用户行为记录")
        return df
    except Exception as e:
        logging.error(f"数据库查询失败: {str(e)}")
        return pd.DataFrame()
    finally:
        if conn:
            conn.close()
 def calculate_heat(row, current_date):
    """计算单个行为的热度值（每次行为独立计算，不考虑聚合次数）"""
    # 计算时间差（天）
    days_passed = (current_date - row['create_time']).days
    # 获取行为配置（默认权重为0）
    config = BEHAVIOR_CONFIG.get(row['behavior_type'], {'weight': 0, 'decay': 0})
    # 计算热度值 = 权重 * e^(-衰减系数 * 天数)
    return config['weight'] * np.exp(-config['decay'] * days_passed)
 def load_heat_matrix_as_array(file_path):
    """
    直接加载为二维numpy数组
    返回: (data_array, row_labels, col_labels)
    """
    with open(file_path) as f:
        saved = json.load(f)
    return (
        np.array(saved['data']),  # 二维矩阵
        saved['row_labels'],      # 行标签列表
        saved['col_labels']       # 列标签列表
    )
 def update_heat_matrices():
    """每日计算并存储热度矩阵（gender_category × path）"""
    current_date = datetime.now()
    # 获取数据
    df = fetch_user_behavior_data(30)
    if df.empty:
        logging.warning("无有效数据，跳过今日计算")
        return None
    # 计算热度值
    df['heat'] = df.apply(calculate_heat, axis=1, current_date=current_date)
    df['gender_category'] = df['gender'] + '_' + df['category']
    # 构建热度向量
    heat_vectors = {}
    grouped = df.groupby(['gender_category', 'url'])['heat'].sum()
    for (gender_category, url), heat in grouped.items():
        heat_vectors.setdefault(gender_category, {})[url] = heat
    # 存储结果
    save_path = 'heat_vectors_data'
    os.makedirs(save_path, exist_ok=True)
    date_str = current_date.strftime('%Y%m%d')
    # vectors_file = f"{save_path}/heat_vectors_{date_str}.json"
    vectors_file = f"{save_path}/heat_vectors.json"
    with open(vectors_file, 'w', encoding='utf-8') as f:
        json.dump({
            'update_time': current_date.strftime('%Y-%m-%d %H:%M:%S'),
            'data': heat_vectors
        }, f, ensure_ascii=False, indent=2)
    logging.info(f"成功存储热度向量，共{len(heat_vectors)}个分组，日期: {date_str}")
    return heat_vectors
 if __name__ == "__main__":
    try:
-        update_user_matrices()
+        # update_user_matrices()
        update_heat_matrices()
        # scheduler = BlockingScheduler()
        # scheduler.add_job(update_user_matrices, 'cron', hour=12, timezone='Asia/Shanghai')
        # logging.info("定时任务已启动，每天12:00执行")
--- a/app/service/recommend/service.py
+++ b/app/service/recommend/service.py
@@ -2,7 +2,8 @@
 import logging
 import time
 from collections import defaultdict
-
+import os
 import json
 import numpy as np
 from app.core.config import DB_CONFIG, RECOMMEND_PATH_PREFIX
@@ -11,6 +12,8 @@ logger = logging.getLogger()
 import pymysql
 from concurrent.futures import ThreadPoolExecutor
 HEAT_VECTOR_FILE = 'heat_vectors_data/heat_vectors.json'  # 可动态加载或配置
 matrix_data = {
    "interaction_matrix": None,
    "feature_matrix": None,
@@ -26,6 +29,9 @@ matrix_data = {
    "category_sketch_idxs_feature": None,
    "user_inter_full": dict(),
    "user_feat_full": dict(),
    "brand_feature_matrix": None,
    "brand_index_map": None,
    "heat_data": {},
 }
@@ -48,7 +54,13 @@ def load_resources():
                                                          allow_pickle=True).item()
        matrix_data["feature_matrix"] = np.load(f"{RECOMMEND_PATH_PREFIX}feature_matrix.npy", allow_pickle=True)
        matrix_data["brand_feature_matrix"] = np.load(f"{RECOMMEND_PATH_PREFIX}brand_feature_matrix.npy", allow_pickle=True)
        matrix_data["brand_index_map"] = np.load(f"{RECOMMEND_PATH_PREFIX}brand_index_map.npy",allow_pickle=True).item()
        matrix_data["user_index_feature"] = np.load(f"{RECOMMEND_PATH_PREFIX}user_index_feature_matrix.npy", allow_pickle=True).item()
        matrix_data["sketch_index_feature"] = np.load(f"{RECOMMEND_PATH_PREFIX}sketch_index_feature_matrix.npy", allow_pickle=True).item()
        category_to_iid_map = np.load(f"{RECOMMEND_PATH_PREFIX}iid_to_category_interaction_matrix.npy", allow_pickle=True).item()
@@ -61,6 +73,14 @@ def load_resources():
        # 触发预缓存
        precache_user_category()
        if os.path.exists(HEAT_VECTOR_FILE):
            with open(HEAT_VECTOR_FILE, 'r', encoding='utf-8') as f:
                heat_json = json.load(f)
                matrix_data["heat_data"] = heat_json.get("data", {})
            logger.info(f"热度向量数据加载完成，共加载 {len(matrix_data['heat_data'])} 个类别")
        else:
            matrix_data["heat_data"] = {}
    except Exception as e:
        logger.error(f"资源加载失败: {str(e)}")
        raise RuntimeError("初始化失败")