Po oznámení Gemini AI Google uvolnil API přístup pro své modely Gemini. V současné době společnost nabízí API přístup k Gemini Pro, včetně modelů pouze pro text a text a vidění. Je to zajímavé vydání, protože Google zatím Bardovi nepřidal vizuální schopnosti, protože používá pouze textový model. S tímto klíčem API můžete konečně okamžitě otestovat multimodální schopnosti Gemini na vašem počítači. V této příručce se naučíme, jak získat přístup a používat rozhraní Gemini API.
Poznámka:
Klíč Google Gemini API je prozatím zdarma pro textové i vizuální modely. Bude zdarma až do všeobecné dostupnosti začátkem příštího roku. Můžete tedy odeslat až 60 požadavků za minutu, aniž byste museli nastavovat fakturaci Google Cloud nebo účtovat jakékoli náklady.
Nastavte Python a Pip na vašem počítači
- Přejděte na našeho průvodce a nainstalujte si Python spolu s Pipem PC nebo Mac. Musíte nainstalovat Python 3.9 nebo vyšší verzi.
- Pokud máte počítač se systémem Linux, můžete podle našeho návodu nainstalovat Python a Pip na Ubuntu nebo jiné distribuce.
- Níže uvedené příkazy můžete spustit v Terminálu na ověřit Python a Pip instalace na vašem počítači. Mělo by vrátit číslo verze.
python -V pip -V
- Jakmile je instalace úspěšná, spusťte níže uvedený příkaz nainstalovat generativní umělou inteligenci Google závislost.
pip install -q -U google-generativeai
Jak získat klíč API Gemini Pro
- Dále přejděte na makersuite.google.com/app/apikey (návštěva) a přihlaste se pomocí svého účtu Google.
- V části Klíče API klikněte na „Vytvořte klíč API v novém projektutlačítko “.
- Zkopírujte klíč API a ponechat to v soukromí. Nezveřejňujte ani nesdílejte klíč API veřejně.
Jak používat Gemini Pro API Key (pouze textový model)
Podobně jako u OpenAI, Google zjednodušil používání svého klíče Gemini API pro účely vývoje a testování. Udělal jsem kód docela jednoduchý pro běžného uživatele, aby jej testoval a používal. V tomto příkladu demonstruji, jak používat model Gemini Pro Text prostřednictvím klíče API.
- Nejprve spusťte editor kódu podle svého výběru. Pokud jste začátečník, stačí nainstalovat Poznámkový blok++ (návštěva). Pro pokročilé uživatele, Visual Studio Code (návštěva) je skvělý nástroj.
- Dále zkopírujte níže uvedený kód a vložte jej do editoru kódu.
import google.generativeai jako genai genai.configure(api_key=’ZEM VLOŽTE SVŮJ KLÍČ API‘) model = genai.GenerativeModel(‚gemini-pro‘) response = model.generate_content(„Jaký je smysl života?“) print( odpověď.text)
- V editoru kódu vložte klíč Gemini API. Jak můžete vidět, definovali jsme model ‚gemini-pro‘, což je pouze textový model. Také jsme přidali dotaz, kde můžete klást otázky.
- Nyní uložte kód a pojmenujte soubor. Nezapomeňte na konec přidat .py. Pojmenoval jsem svůj soubor gemini.py a uložili jej na plochu.
- Dále spusťte terminál a spusťte níže uvedený příkaz přesunout na plochu.
cd Desktop
- Jakmile jste na ploše v terminálu, jednoduše spusťte níže uvedený příkaz vykonat soubor gemini.py pomocí Pythonu.
python gemini.py
- Teď bude odpovědět na otázku jste nastavili v souboru gemini.py.
- Můžete změnit otázku v editoru kódu jej uložte a znovu spusťte soubor gemini.py, abyste získali novou odpověď přímo v terminálu. Takto můžete použít klíč Google Gemini API pro přístup k pouze textovému modelu Gemini Pro.
Jak používat Gemini Pro API Key (Text-and-Vision Model)
V tomto příkladu ukážu, jak můžete komunikovat s multimodálním modelem Gemini Pro. Na Google Bard zatím není aktivní, ale přes API k němu máte hned přístup. A naštěstí je proces opět docela snadný a bezproblémový.
- Otevřete nový soubor v editoru kódu a vložte níže uvedený kód.
import google.generativeai jako genai import PIL.Image img = PIL.Image.open(‚image.jpg‘) genai.configure(api_key=’ZEM VLOŽTE KLÍČ API‘) model = genai.GenerativeModel(‚gemini-pro-vision ‚) odpověď = model.generate_content([„what is the total calorie count?“, img]) tisk (odpověď.text)
- Nezapomeňte vložit klíč Gemini API. Zde používáme gemini-pro-vision model, což je textový a vizuální model.
- Nyní uložte soubor na plochu a přidejte .py na konec názvu souboru. Pojmenoval jsem to geminiv.py zde.
- Ve třetím řádku kódu, jak vidíte, nasměruji AI na an obrázek.jpg soubor, který je uložen na mé ploše s přesným názvem. Ať už chcete zpracovat jakýkoli obrázek, ujistěte se, že je uložen na stejném místě jako soubor geminiv.py a že název souboru je stejný se správnou příponou. Můžete předávat místní soubory JPG a PNG o velikosti až 4 MB.
- V šestém řádku kódu můžete klást otázky související s obrázkem. Protože krmím obrazem souvisejícím s jídlem, žádám Gemini Pro o to vypočítat celkovou kalorii počítat.
- Je čas na to spustit kód v Terminálu. Jednoduše přejděte na plochu (v mém případě) a spusťte níže uvedené příkazy jeden po druhém. Pokud jste provedli nějaké změny, nezapomeňte soubor uložit.
cd Desktop python geminiv.py
- Vizuální model Gemini Pro odpovídá na otázku přímo. Můžete klást další otázky a požádat o to AI vysvětlit zdůvodnění.
- Můžete nahrát jiný obrázek také, ale ujistěte se, že odpovídá názvu souboru obrázku, změňte otázku v kódu a znovu spusťte soubor geminiv.py, abyste získali nové odpovědi.
Jak používat klíč Gemini Pro API ve formátu chatu
Díky nekonv (GitHub) stručný kód, můžete chatovat s modelem Gemini Pro v okně Terminál pomocí klíče API Gemini AI. Tímto způsobem nemusíte měnit otázku v kódu a znovu spouštět soubor Python, abyste získali nový výstup. V chatu můžete pokračovat v samotném okně Terminálu.
Nejlepší ze všeho je, že Google nativně implementoval historii chatu, takže nemusíte ručně přidávat odpovědi a spravovat historii chatu sami v poli nebo seznamu. Díky jednoduché funkci Google ukládá veškerou historii konverzace do chatové relace. Zde je návod, jak to funguje.
- Otevřete editor kódu a vložte níže uvedený kód.
import google.generativeai jako genai genai.configure(api_key=’VLOŽTE SI KLÍČ API SEM‘) model = genai.GenerativeModel(‚gemini-pro‘) chat = model.start_chat() while True: message = input(„Vy: “ ) odpověď = chat.send_message(zpráva) print(„Blíženci: “ + odpověď.text)
- Jako obvykle vložte klíč API podobně jako ve výše uvedených částech.
- Nyní uložte soubor na plochu nebo do preferovaného umístění. Nezapomeňte na konec přidat .py. Pojmenoval jsem to geminichat.py soubor.
- Nyní spusťte Terminál a přejděte na plochu. Poté spusťte soubor geminichat.py.
cd Desktop python geminichat.py
- Nyní můžete bez námahy pokračovat v konverzaci a také bude zapamatovat si historii chatu. Jedná se tedy o další skvělý způsob, jak použít klíč Google Gemini API.
Toto je několik příkladů, které můžete zkusit vyzkoušet možnosti Google Gemini prostřednictvím API. Líbí se mi, že Google zpřístupnil svůj model vidění nadšencům a vývojářům, aby si jej vyzkoušeli, a porovnal jej s OpenAI DALL-E 3 a ChatGPT. Model Gemini Pro vision sice nepřekoná model GPT-4V, ale je docela dobrý nicméně. Čekáme na uvedení Gemini Ultra, které je na stejné úrovni jako model GPT-4.
Kromě toho jsou reakce z Gemini Pro API trochu odlišné od Google Bard, který je také poháněn vyladěnou verzí Gemini Pro. Bardovy odpovědi zdát mírně nudné a dezinfikovanéale reakce API Gemini Pro působí živěji a mají charakter.
Budeme sledovat všechny změny v tomto prostoru, takže zůstaňte naladěni na další obsah související s Gemini AI. Mezitím pokračujte a sami se podívejte na Google Gemini API.