您的位置:首页 > 互联网

斯坦福pi币下载「击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%」

发布时间:2023-07-03 14:47:14  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最能打的开源模型来了?OpenLLM在最新评测中,一举击败ChatGPT。

一夜之间,全新开源模型「OpenLLM」击败ChatGPT的消息,在网上引起轩然大波。

根据官方的介绍,OpenLLM:

- 在斯坦福AlpacaEval上,以80.9%的胜率位列开源模型第一

- 在Vicuna GPT-4评测中,性能则达到了ChatGPT的105.7%

斯坦福spcs

最重要的是,如此卓越的性能,只需要6K的GPT-4对话数据进行微调训练。

斯坦福mpp

项目地址:https://github.com/imoneoi/openchat

不过Chatbot Arena的「榜单主」提醒称,由于旧的Vicuña eval基准存在一些bias,因此提倡大家迁移到新提出的MT-bench上——从而更好地测评LLM更多方面的能力。

斯坦福pi团队成员

OpenLLM:只需6K GPT-4对话微调

OpenLLM是一个在多样化且高质量的多轮对话数据集上进行微调的开源语言模型系列。

具体来讲,研究人员从约90K的ShareGPT对话中,过滤出来约6K的GPT-4对话。

经过6k数据微调后,令人惊讶的是,OpenLLM已经被证明可以在有限的数据下实现高性能。

OpenLLM有两个通用模型,它们是OpenChat和OpenChat-8192。

斯坦福snap

OpenChat:基于LLaMA-13B微调,上下文长度为2048

cos王者荣耀的主播

苹果iphone 14发布会回放

- 在Vicuna GPT-4评估中达到ChatGPT分数的105.7%

- 在AlpacaEval上取得了惊人的80.9%的胜率

OpenChat-8192:基于LLaMA-13B微调,上下文长度为8192

- 在Vicuna GPT-4评估中达到ChatGPT分数的106.6%

- 在AlpacaEval上取得的79.5%胜率

斯坦福博士开发pi是真的

此外,OpenLLM还有代码模型,其性能如下:

OpenCoderPlus:基于StarCoderPlus,原始上下文长度为8192

- 在Vicuna GPT-4评估中达到ChatGPT分数的102.5%

- 在AlpacaEval上获得78.7%的胜率

模型评估

研究人员使用Vicuna GPT-4和AlpacaEval基准评估了最新模型,结果如下图所示:

斯坦福ios开发教程

米11是曲面屏吗

Vicuna GPT-4评估(v.s. gpt-3.5-turbo)

斯坦福大学博士开发的pi币

Vicuna GPT-3.5-Turbo评估(v.s. gpt-3.5-turbo)

另外,值得注意的是,研究者采用的评估模式与Vicuna的略有不同,还使用了证据校准(EC)+平衡位置校准(BPC)来减少潜在的偏差。

斯坦福mpp

安装和权重

要使用OpenLLM,需要安装CUDA和PyTorch。用户可以克隆这个资源库,并通过pip安装这些依赖:

    gitclonegit@github.com:imoneoi/OChat.gitpipinstall-rrequirements.txt

    目前,研究人员已经提供了所有模型的完整权重作为huggingface存储库。

    用户可以使用以下命令在本地启动一个API服务器,地址为https://localhost:18888。

    斯坦福snap

    其中,服务器与openai包,以及ChatCompletions协议兼容(请注意,某些功能可能不完全支持)。

    用户可以通过设置以下方式指定openai包的服务器:

    openai.api_base="https://localhost:18888/v1"

    当前支持的ChatCompletions参数有:

    ipfs斯坦福大学

    建议:使用至少40GB(1x A100)显存的GPU来运行服务器。

    数据集

    转换后的数据集可在openchat_sharegpt4_dataset上获取。

    项目中所使用的数据集,是对ShareGPT清洗和筛选后的版本。

    其中,原始的ShareGPT数据集包含大约90,000个对话,而仅有6,000个经过清理的GPT-4对话被保留用于微调。

    清洗后的GPT-4对话与对话模板和回合结束时的token相结合,然后根据模型的上下文限制进行截断(超出限制的内容将被丢弃)。

    要运行数据处理流程,请执行以下命令:

      ./ochat/data/run_data_pipeline.shINPUT_FOLDEROUTPUT_FOLDER

      输入文件夹应包含一个ShareGPT文件夹,其中包含每个ShareGPT对话页面的.html文件。

      数据处理流程包括三个步骤:

      - 清洗:对HTML进行清理并转换为Markdown格式,删除格式错误的对话,删除包含被屏蔽词汇的对话,并进行基于哈希的精确去重处理

      - 筛选:仅保留token为Model: GPT-4的对话

      - 转换:为了模型的微调,针对所有的对话进行转换和分词处理

      最终转换后的数据集遵循以下格式:

      MODEL_TYPE.train.json / .eval.json

      [[token_id_list,supervise_mask_list],[token_id_list,supervise_mask_list],...]

      MODEL_TYPE.train.text.json / .eval.text.json从token_id_list解码的纯文本

      除此之外,研究人员还提供了一个用于可视化对话嵌入的工具。

      只需用浏览器打开ochat/visualization/ui/visualizer.html,并将MODEL_TYPE.visualizer.json拖放到网页中。点击3D图中的点,就可以显示相应的对话。

      其中,嵌入是使用openai_embeddings.py创建的,然后使用dim_reduction.ipynb进行UMAP降维和K-Means着色。

      斯坦福spcs

      模型修改

      研究人员为每个基础模型添加了一个EOT(对话结束)token。

      对于LLaMA模型,EOT的嵌入初始化为所有现有token嵌入的平均值。对于StarCoder模型,EOT的嵌入以0.02标准差进行随机初始化。

      对于具有8192上下文的LLaMA-based模型,max_position_embeddings被设置为8192,并且进行了RoPE(相对位置编码)代码的外推。

      训练

      训练模型时使用的超参数在所有模型中都是相同的:

      斯坦福biodesign平台

      使用8xA10080GB进行训练:

        NUM_GPUS=8

        deepspeed --num_gpus=$NUM_GPUS --module ochat.training_deepspeed.train \--model_type MODEL_TYPE \--model_path BASE_MODEL_PATH \--save_path TARGET_FOLDER \--length_grouping \--epochs5\--data_path DATASET_PATH \--deepspeed \--deepspeed_config ochat/training_deepspeed/deepspeed_config.json

        评估

        要运行Vicuna GPT-4评估,请执行以下步骤:

        1. 生成模型答案

        三星gear vr游戏下载

          python-mochat.evaluation.get_model_answer--model_typeMODEL_TYPE--models_pathPATH_CONTAINING_ALL_MODELS_SAME_TYPE--data_path./ochat/evaluation/vicuna--output_path./eval_results

          2. 生成基线(GPT-3.5)答案

            OPENAI_API_KEY=sk-XXXpython-mochat.evaluation.get_openai_answer--data_path./ochat/evaluation/vicuna--output_path./eval_baselines--model_typesgpt-3.5-turbo

            3. 运行GPT-4评估

              OPENAI_API_KEY=sk-XXXpython-mochat.evaluation.openai_eval--data_path./ochat/evaluation/vicuna--baseline_path./eval_baselines/vicuna_gpt-3.5-turbo.jsonl--input_path./eval_results

              4. 可视化和细节

              要获得可视化和绘制评估结果,请使用浏览器打开ochat/visualization/eval_result_ui/eval_result_visualizer.html,并选择./eval_results/eval_result_YYYYMMDD文件夹中的所有文件以显示结果。

              局限性

              基础模型限制

              尽管能够实现优秀的性能,但OpenLLM仍然受到其基础模型固有限制的限制。这些限制可能会影响模型在以下领域的性能:

              - 复杂推理

              - 数学和算术任务

              - 编程和编码挑战

              不存在信息的幻觉

              OpenLLM有时可能会产生不存在或不准确的信息,也称为「幻觉」。用户应该意识到这种可能性,并验证从模型中获得的任何关键信息。

              参考资料:

              https://github.com/imoneoi/openchat

              https://tatsu-lab.github.io/alpaca_eval/


              返回网站首页

              本文评论
              价格对标苹果,三星 S23 系列尝鲜价来了:5699-13199 元,你愿意尝鲜吗?
              2023 年 2 月 2 日消息,今日凌晨三星 Galaxy S23 系列正式发布,国行先行者计划开启,据了解,先行者计划中的尝鲜价并非最终售价,最终售价将在中国发布会上公布,差价将按照多退少不...
              日期:02-03
              AMD面临艰难新季度,与英特尔英伟达的竞争不断加剧_英伟达、英特尔、AMD等芯片巨头集体萎靡,PC销售热潮已退
              realme gt neo2屏幕素质你以为诺基亚死了,它却一跃成为全球5G巨头   过去近两年,当疫情期间人们被隔离在家时,PC出货量出现爆发式增长。而现在,这样的增长终于消失。   当...
              日期:08-16
              阔别三年重返MWC,中国厂商依然是最耀眼的星
              作者|御柳 出品 | 网易科技《态℃》栏目组 经历了一次停办,两次规模严重缩水之后,2023年世界移动通信大会(MWC)终于再现往日盛况:有来自200多个国家和地区的2000多家厂商参加,并...
              日期:03-01
              美媒:外卖业务或成为Uber股价关键动力_【此刻评论】为什么说Uber在资本市场遇冷是必然?
                北京时间5月20日早间消息,据美国《财富》(Fortune)杂志报道,投资者对Uber的追捧热潮正迅速减退。自本月的IPO(首次公开招股)以来,Uber的股价大幅下跌,从上上周四每股45美元...
              日期:08-07
              小米10t pro拍照「小米12T Pro真机曝光:2亿主摄 10月4日发布」
              今天傍晚传出了小米12T系列手机的消息,其中小米12T Pro真机照已经公开,目前来说小米12T Pro工业设计与国行版Redmi K50至尊版基本差不太多,都是搭载的骁龙8+旗舰处理器,标配1.5K...
              日期:10-02
              酷派助力“抗疫”加紧研发智能测温定位追踪器 特定人群可实时监控智能测温
                当前正值新型冠状病毒感染引发的肺炎疫情防控的关键时刻,为最大程度防范疫情扩散,阻止新的疫情传播,对疑似潜伏期人群的监控尤为重要。如何发挥人工智能赋能效用,对特定人...
              日期:04-16
              支付宝新版界面曝光了:支付宝小程序或迎重磅入口_支付宝首页显示小程序
                浓眉大眼的支付宝或许将迎来重大改版。1月6日,支付宝小程序官方生活号曝光了一张异形的支付宝主UI界面,配文称“周一见”。   这张被曝光的主UI界面着重突出了支付宝首...
              日期:07-23
              快手上线“快手短剧”、“附近的人”等多款桌面组件_2021快手附近的人在哪里找
              6月20日消息,近期,快手App在iOS端与Android端发布新版本,上线“快手短剧”、“搜索飙升”、“快手消息”、“今天吃什么”、“附近的人”等多款桌面组件。快手透露,快手短剧日活...
              日期:06-20
              谷歌CEO拉里佩奇:谷歌最大的敌人是自己(谷歌的老大)
                9月30日消息,据国外媒体报道,放下反垄断调查和持续加温的竞争不谈,谷歌 CEO 拉里佩奇认为该公司迈向成功大道的最大障碍就是自己。   佩奇说:“我们所观察到的有趣现象之...
              日期:07-23
              度小满“满链”平台通过信通院专项测评 带来更便捷区块链接入体验
              如今,在各种创新技术推动下,数字中国建设步伐不断加快,各行各业都面临转型升级。加快区块链等前沿科技在金融领域的创新应用,无疑将加快金融数字化转型步伐。度小满时刻关注金融...
              日期:04-24
              泰瑞数创:坚持数字孪生的硬核之路 不刻意追逐元宇宙风口
                数字孪生城市是什么?是在数字空间,再造一个与现实物理城市匹配对应的数字城市。国际数据公司(IDC)发布显示,2023年全球智慧城市技术相关投资将达到1894.6亿美元;其中,中...
              日期:08-08
              55寸手机有多大图片「5 5寸手机」
              5.5寸手机可以说是手机屏幕尺寸的一个里程碑,它代表着手机屏幕的进化和改进。realme搭载天玑820的手机5.5寸的屏幕在手机屏幕尺寸的演进中,可以算是一个比较中等的尺寸。相对...
              日期:05-31
              交通运输部:网约车应当在许可的经营区域内从事经营活动_在本市从事网约车经营的,应当根据经营区域
                今日,针对“网络预约出租汽车驾驶员证是否全国通用”的问题,交通运输部答复称,出租汽车驾驶员从业资格证件非全国通用证件,网络预约出租汽车驾驶员从业资格区域科目考试是...
              日期:07-17
              主播贾亚亚加婵婵涉嫌偷逃税被处罚
              2月14日 消息:据西安市税务局消息,近期,西安市税务局第三稽查局通过税收大数据分析,发现网络主播贾亚亚、加婵婵涉嫌偷逃税款,在相关税务机关配合下,依法对其开展了税务检查。经...
              日期:02-15
              小米骁龙8系列处理器的手机「小米14爆料骁龙8 Gen3性能拉满」
              小米13 ultra刚刚发布不久,小米14就迎来了曝光消息。新的爆料称,小米14将在今年年底登场,新机和前作一样采用直屏设计,按照惯例应该会采用高通骁龙8 Gen3芯片,将整机性能推上新的...
              日期:04-24
              快手电商上线蟹无忧专场活动  活动商品均有“蟹无忧”标签
              10月8日 消息:为了解决缺斤少两、死蟹、货不对板等问题,快手电商近期上线了优选蟹无忧专场活动,活动商品均打有“蟹无忧”标签,消费者具有该标识的螃蟹,若发现问题,快手将优先核...
              日期:10-09
              东南亚ota「全面进入东南亚一年的TikTok Shop,大促成绩单之外做了什么?」
              声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:白鲸小编,,授权转载发布。Glenda Dela Cruz今年26岁,但已经具有模特、演员、CEO三重身份,在TikTok上拥有330多万粉丝,在...
              日期:06-22
              金山云2020年营收「金山云第三季度总营收19.69亿元 同比下降18.4%」
              11月24日消息:金山云发布2022年第三季度业绩,实现总营收19.69亿元,同比下降18.4%;净亏损8.01亿元,去年同期为亏损5.07亿元。公有云和行业云分别实现收入13.5亿元和6.2亿元。调...
              日期:11-25
              温哥华冬奥会总设计师:黑客攻击远比想象的多 安全不能掉以轻心
                8月7日,以“内生安全 从安全框架开始”为主题的北京网络安全大会(BCS 2020)正式举办。上午,2010温哥华年冬季奥运会和残奥会首席执行官John Furlong出席了本届大会特设的...
              日期:07-15
              宽带速度最快的十个城市(宽带速度最快的十个城市排行榜)
                GIGAOM公司今天公布了最新的全球城市人均宽带速度排行榜,该公司每天都会对全球各地的宽带网络进行测试,经过100多万次测试后得出结果,全球平均宽带速度为7.69Mbps,美国为10...
              日期:07-29