text-generation-webui/modules/loaders.py

import functools

import gradio as gr

from modules import shared

loaders_and_params = {
    'AutoGPTQ': [
        'triton',
        'no_inject_fused_attention',
        'no_inject_fused_mlp',
        'no_use_cuda_fp16',
        'wbits',
        'groupsize',
        'desc_act',
        'gpu_memory',
        'cpu_memory',
        'cpu',
        'disk',
        'auto_devices',
        'trust_remote_code',
        'autogptq_info',
    ],
    'GPTQ-for-LLaMa': [
        'wbits',
        'groupsize',
        'model_type',
        'pre_layer',
        'gptq_for_llama_info',
    ],
    'llama.cpp': [
        'n_ctx',
        'n_gpu_layers',
        'n_batch',
        'threads',
        'no_mmap',
        'low_vram',
        'mlock',
        'llama_cpp_seed',
    ],
    'Transformers': [
        'cpu_memory',
        'gpu_memory',
        'trust_remote_code',
        'load_in_8bit',
        'bf16',
        'cpu',
        'disk',
        'auto_devices',
        'load_in_4bit',
        'use_double_quant',
        'quant_type',
        'compute_dtype',
        'trust_remote_code',
        'transformers_info'
    ],
    'ExLlama': [
        'gpu_split',
        'max_seq_len',
        'compress_pos_emb',
        'alpha_value',
        'exllama_info',
    ],
    'ExLlama_HF': [
        'gpu_split',
        'max_seq_len',
        'compress_pos_emb',
        'alpha_value',
        'exllama_HF_info',
    ]
}


def get_gpu_memory_keys():
    return [k for k in shared.gradio if k.startswith('gpu_memory')]


@functools.cache
def get_all_params():
    all_params = set()
    for k in loaders_and_params:
        for el in loaders_and_params[k]:
            all_params.add(el)

    if 'gpu_memory' in all_params:
        all_params.remove('gpu_memory')
        for k in get_gpu_memory_keys():
            all_params.add(k)

    return sorted(all_params)


def make_loader_params_visible(loader):
    params = []
    all_params = get_all_params()
    if loader in loaders_and_params:
        params = loaders_and_params[loader]

        if 'gpu_memory' in params:
            params.remove('gpu_memory')
            params += get_gpu_memory_keys()

    return [gr.update(visible=True) if k in params else gr.update(visible=False) for k in all_params]
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`import functools`

			`import gradio as gr`

			`from modules import shared`

			`loaders_and_params = {`
			`'AutoGPTQ': [`
			`'triton',`
			`'no_inject_fused_attention',`
			`'no_inject_fused_mlp',`
Add --no_use_cuda_fp16 param for AutoGPTQ 2023-06-23 17:22:56 +02:00			`'no_use_cuda_fp16',`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`'wbits',`
			`'groupsize',`
			`'desc_act',`
			`'gpu_memory',`
			`'cpu_memory',`
			`'cpu',`
			`'disk',`
			`'auto_devices',`
			`'trust_remote_code',`
			`'autogptq_info',`
			`],`
			`'GPTQ-for-LLaMa': [`
			`'wbits',`
			`'groupsize',`
			`'model_type',`
			`'pre_layer',`
			`'gptq_for_llama_info',`
			`],`
			`'llama.cpp': [`
			`'n_ctx',`
			`'n_gpu_layers',`
			`'n_batch',`
			`'threads',`
			`'no_mmap',`
Add low vram mode on llama cpp (#3076) 2023-07-12 16:05:13 +02:00			`'low_vram',`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`'mlock',`
			`'llama_cpp_seed',`
			`],`
			`'Transformers': [`
			`'cpu_memory',`
			`'gpu_memory',`
			`'trust_remote_code',`
			`'load_in_8bit',`
			`'bf16',`
			`'cpu',`
			`'disk',`
			`'auto_devices',`
			`'load_in_4bit',`
			`'use_double_quant',`
			`'quant_type',`
			`'compute_dtype',`
			`'trust_remote_code',`
Add some clarifications 2023-06-17 00:07:16 +02:00			`'transformers_info'`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`],`
lint 2023-07-12 20:33:25 +02:00			`'ExLlama': [`
Add gpu_split param to ExLlama Adapted from code created by Ph0rk0z. Thank you Ph0rk0z. 2023-06-17 01:49:36 +02:00			`'gpu_split',`
ExLlama with long context (#2875) 2023-06-26 03:49:26 +02:00			`'max_seq_len',`
			`'compress_pos_emb',`
Add Support for Static NTK RoPE scaling for exllama/exllama_hf (#2955) 2023-07-04 06:13:16 +02:00			`'alpha_value',`
Add ExLlama support (#2444) 2023-06-17 01:35:38 +02:00			`'exllama_info',`
Implement a demo HF wrapper for exllama to utilize existing HF transformers decoding. (#2777) 2023-06-21 20:31:42 +02:00			`],`
lint 2023-07-12 20:33:25 +02:00			`'ExLlama_HF': [`
Implement a demo HF wrapper for exllama to utilize existing HF transformers decoding. (#2777) 2023-06-21 20:31:42 +02:00			`'gpu_split',`
ExLlama with long context (#2875) 2023-06-26 03:49:26 +02:00			`'max_seq_len',`
			`'compress_pos_emb',`
Add Support for Static NTK RoPE scaling for exllama/exllama_hf (#2955) 2023-07-04 06:13:16 +02:00			`'alpha_value',`
Implement a demo HF wrapper for exllama to utilize existing HF transformers decoding. (#2777) 2023-06-21 20:31:42 +02:00			`'exllama_HF_info',`
Add ExLlama support (#2444) 2023-06-17 01:35:38 +02:00			`]`
Reorganize model loading UI completely (#2720) 2023-06-17 00:00:37 +02:00			`}`


			`def get_gpu_memory_keys():`
			`return [k for k in shared.gradio if k.startswith('gpu_memory')]`


			`@functools.cache`
			`def get_all_params():`
			`all_params = set()`
			`for k in loaders_and_params:`
			`for el in loaders_and_params[k]:`
			`all_params.add(el)`

			`if 'gpu_memory' in all_params:`
			`all_params.remove('gpu_memory')`
			`for k in get_gpu_memory_keys():`
			`all_params.add(k)`

			`return sorted(all_params)`


			`def make_loader_params_visible(loader):`
			`params = []`
			`all_params = get_all_params()`
			`if loader in loaders_and_params:`
			`params = loaders_and_params[loader]`

			`if 'gpu_memory' in params:`
			`params.remove('gpu_memory')`
			`params += get_gpu_memory_keys()`

			`return [gr.update(visible=True) if k in params else gr.update(visible=False) for k in all_params]`