随笔分类 - 大模型
摘要:参考 https://www.minimax.io/news/minimax-m25 以下是四个 AI 评测基准的对比总结: 基准 领域 数据来源 样本量 任务形式 核心指标 防数据污染策略 代表意义 SWE-Bench Verified 软件工程 真实 GitHub Issue + PR(Djan
阅读全文
摘要:作用: 为claude code 做代理,支持其他模型 litellm_config.yaml model_list: - model_name: kimik2.5 litellm_params: model: anthropic/aisearch_s3_dsv3_1basexxx api_key:
阅读全文
摘要:fa2 # flash-attention export CMAKE_CXX_STANDARD=17 export CMAKE_CXX_FLAGS="-D_GLIBCXX_USE_CXX11_ABI=1" export TORCH_CUDA_ARCH_LIST="7.0 7.5 8.0 8.6 8.
阅读全文
摘要:https://hao-ai-lab.github.io/cse234-w25/
阅读全文
摘要:大模型训练 https://huggingface.co/spaces/nanotron/ultrascale-playbook?section=high_level_overview 大模型推理加速 https://www.53ai.com/news/finetuning/202407110928
阅读全文
摘要:socket 代理使用 安装 brew install proxychains-ng 配置 $ tail -n 3 /opt/homebrew/etc/proxychains.conf #socks4 127.0.0.1 9050 socks5 127.0.0.1 <端口> 使用 # pkill p
阅读全文
摘要:https://github.com/deepseek-ai/awesome-deepseek-integration/blob/main/docs/zotero/README_cn.md 一开始用curl调用一直没反应, 加了 -k 后可以。 然后去掉-k 也可以 curl https://api
阅读全文
摘要:https://www.modelscope.cn/models/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF/summary 下载llama-cli https://github.com/ggerganov/llama.cpp/releases 利用model
阅读全文

浙公网安备 33010602011771号