在創作內容的過程中,我們經常需要進行翻譯、圖片文字辨識、語音轉文字…等操作。這篇文章將介紹6款由 Google Cloud 提供的優質免費 AI 工具,這些工具涵蓋了各種常見的 AI 使用需求,包括寫作生成、動態翻譯、圖片和影片分析、語音轉文字、文字轉合成語音…等眾多 AI 功能。只要使用上不超出每個月的免費用量限制,即可免費享用媲美 AWS(Amazon Web Services)等級的 AI 技術!致想要全方面提升工作效率的你,這篇文章將協助你善用 AI 工具,實現各種創意構想。
【表格比較】6項免費AI工具
AI 工具 | 主要功能 | 免費用量限制 |
---|---|---|
Gemini | 生成內容、翻譯語言、回答問題、理解和處理信息。 | 沒有免費用量限制 |
Translation | 支援 100 種以上的語言組合,可即時將文字翻譯並實現內容本地化。 | 每月前 500,000 個字元 |
Vision AI | 偵測辨識圖片中的臉孔、屬性、地標、標誌、文字及其他元素。 | 每月前 1,000 個單位 |
Video AI | 偵測辨識影片中的鏡頭、臉孔、標誌、文字和其他元素,可篩選不當的煽情露骨內容。 | 每月前 1,000 分鐘 |
Speech-to-Text | 利用語音識別技術,將語音準確轉換為文字。 | 每月前 60 分鐘 |
Text-to-Speech | 利用語音合成技術,將文字轉成模擬真實人聲的自然語音。 | 標準語音:前 400 萬個字元 WaveNet 語音:前 100 萬個字元 |
免費 AI 工具一:Gemini(寫作生成)
說到 AI 寫作工具,你是否只熟悉 ChatGPT 呢?現在,我將向你介紹一個可以與 OpenAI 的 GPT-4 匹敵的 AI 產品-Gemini!它於 2023 年 12 月 6 日才正式面世(Bard 已更名為 Gemini),Gemini 是由 Google 開發的生成式人工智慧聊天機器人,為了因應 OpenAI 公司所推出的 ChatGPT 聊天機器人而開發的 AI 工具。目前,Google 官方已針對 Gemini 1.0 版本的模型進行了最佳優化,並推出了三種不同的規模:
- Gemini Ultra:規模最大、功能最強大,針對高度複雜的任務而設計,適合處理需要龐大計算資源和複雜處理能力的任務。
- Gemini Pro:最適合擴展,適用於多樣性的任務需求,具備彈性擴展性,適合應對不同範疇和用途的應用情境。
- Gemini Nano:在裝置上處理任務最有效率,適合應用在資源受限的裝置,如移動設備或嵌入式系統,保證在有限的硬體環境中實現高效運算。
Gemini 的技術亮點
- 查證回覆內容:我認為寫作生成器的技術是否成熟,取決於資訊的準確度!為了應對這一挑戰,Gemini 提供了即時線上的 Google 搜尋查證功能。雖然 Gemini 並非每次都能給出 100% 正確的答案,但對於特定段落的回答,系統會標示已進行 Google 搜尋查證,使用者可點選按鈕查看相似或相異的資訊,以驗證 Gemini 的回答。
- Transformer-XL 架構:Gemini 採用了 Transformer-XL 架構,該架構可以有效地處理長序列數據,並解決了傳統 Transformer 模型的 “ 自注意力瓶頸 ” 問題。透過引入長範圍的循環機制,Gemini 能夠更有效地處理包含大量信息的長序列數據。
- 知識蒸餾技術:Gemini 採用了知識蒸餾技術,這種方法能夠將大型模型的知識轉移至小型模型中,以提升小型模型的性能。通過將豐富的大型模型知識精煉成小型模型能理解的形式,Gemini 在保持模型輕量的同時,保留了大型模型的豐富信息,從而達到提高性能的效果。
- 結合影音功能:Gemini 提供了文字回覆生成語音播放的功能,同時也支援直接上傳圖片。當使用者上傳圖片時,Gemini 能夠進行圖像處理,提取其中的文字及 JSON…等資訊。
- 匯出試算表:這項免費 AI 工具提供「匯出到試算表」的選項,這表示 Gemini 允許使用者將生成的表格直接轉存為試算表,例如:Excel、Google Sheets,進而方便地進行後續的數據處理、編輯或分享,這項功能非常貼心!
免費用量限制
根據 Google AI 的官方公告,Gemini 目前處於測試階段,因此沒有免費用量限制。不過,Google AI 保留隨時更改此政策的權利。
特別推薦族群
ChatGPT 和 Gemini 都是目前最先進的大型語言模型之一,兩者在準確性、流暢度和創造力方面的表現都不錯。ChatGPT 的優勢在於其訓練數據量大,因此可以生成更加流暢的文字。Gemini 的優勢在於可以理解和生成多模態數據,並具備線上 Google 搜尋查證的功能,因此準確度更高!
如果你需要生成大量的文字,對流暢度要求較高,那麼 ChatGPT 是更好的選擇。如果你需要生成多模態數據,並期望 AI 工具能主動提供參考文獻資料,以達到更高的內容準確度,那麼 Gemini 是更好的 AI 工具首選!
《 延伸閱讀:【ChatGPT教學】文案師最愛用的8項指令,善用GPT寫完整篇文章 》
免費 AI 工具二:Translation(智能翻譯)
這項免費的 AI 工具,利用 Google 預先訓練的神經機器翻譯(NMT)模型,能夠實現超過 100 種語言組合的動態翻譯,使得用戶可以即時翻譯文字。同時,Translation 還能將內容本地化,讓翻譯結果更加準確且貼近當地用語,提高了內容的適用性和可讀性,可說是媲美 AWS Polly 等級的功能!
Google Cloud Translation 的技術亮點
- AutoML Translation:無需編寫程式碼,就可以針對「特定領域」或「使用情境」建立自定義翻譯模型。它運用機器學習來分析你提供的翻譯文本,並開發一個模型,該模型比標準的 Google 翻譯提供更高的準確度!
- Cloud Translation API:採用 Google 的神經機器翻譯技術,使你能夠透過 API 使用 Google 預先訓練的模型、自訂模型或翻譯專用的大型語言模型(LLMs)來動態翻譯文字。
- 提供兩種版本:這項 AI 工具本身有分為基本版和進階版。兩者都提供快速且動態的翻譯,但進階版提供定製功能,例如:特定領域翻譯、格式化文件翻譯和批次翻譯。
- Translation Advanced:支援翻譯大量的文字、自訂模型、格式化文件與羅馬拼音文字,功能媲美 AWS Polly。
- 語音轉文字:對視訊或音訊進行簡單的翻譯轉錄,Speech-to-text API 可以將你的視訊或音訊高精度地轉錄為文字文件,該檔案可以由 Transcoder API 翻譯成不同的語言。若要在轉錄和翻譯後為影片新增字幕,請使用 Transcoder API 新增字幕。
- 文字轉語音:可支援 50 多種語言的視訊配音、轉錄和翻譯,搭配 Text-to-speech API 的 380 多種語音選擇,更可以合成出自訂且逼真的語音。
免費用量限制
每月提供的免費處理額度高達 500,000 個字元,非常適合處理一般內容,例如:聊天訊息、社群媒體貼文或留言。值得注意的是,免費版並不適用於翻譯專用的大型語言模型(LLM)。
特別推薦族群
- 需要大量翻譯的組織:這項 AI 工具有設置 Translation Hub(翻譯中心),專為需要將大量文件翻譯成多種不同語言的組織而設計,是一項完全託管的自助文件翻譯服務。
- 進行多個專案的企業:Google Cloud Translation 本身是一個集中式平臺,具有強大的企業管理、控制和安全性,簡化了翻譯工作流程,幫助組織在多個專案中保持一致性和品質,同時降低成本,特別適合有一定規模的企業使用!
免費 AI 工具三:Vision AI(偵測圖文)
Vision AI 可說是一款革命性的全代管開發環境,僅需數分鐘即可啟動新的影片和圖片分析應用,透過預先訓練的 API、AutoML 或自訂模型進行機器學習模型訓練,能夠偵測圖片中的臉孔、地標、屬性、標誌,甚至還能讀取手寫文字和其他元素,功能媲美 AWS Rekognition,可以實現圖片分類和影片的深度分析。
Vision AI 的技術亮點
- 快速啟動應用程式:輕鬆在幾分鐘內啟動新的影片和圖片分析應用程式,並提供簡單的操作,讓你快速開展影片和圖片分析。
- 機器學習模型訓練:使用 AutoML 或自訂模型進行機器學習,實現圖片的快速分類,可輕鬆訓練機器學習模型以滿足你特定的業務需求。
- 預先訓練的 API 功能:利用預先訓練的 API 偵測物件、讀取手寫文字和印刷文字,並生成有參考價值的圖片中繼資料。
- 簡化開發流程:使用預先訓練的 API、AutoML 和自訂模型,輕鬆建構、部署及管理電腦視覺應用程式,可降低複雜性。更棒的是還能與 BigQuery、Cloud Functions 和相機輕鬆整合,實現端對端的應用,縮短創造價值的時間!
- 多樣用途與程度滿足:提供多樣性的電腦視覺產品,包括 Vertex AI Vision、自訂機器學習模型、Vision API,可以滿足不同專業程度的需求。
免費用量限制
每月提供前 1,000 個單位的免費用量且無時間限制,這為初期的使用者或小規模組織,提供了靈活和經濟高效的選擇。
特別推薦族群
- 電商業者:Vision API 的產品搜尋功能能夠幫助電商業者提升用戶體驗,讓用戶以視覺化方式在產品目錄中快速尋找感興趣的商品。
- 內容管理者:對於需要監管和管理大量視覺內容的平台或網站,Vision API 可以為圖片加上標籤、光學字元辨識,並為煽情露骨的內容加上標記。內容管理者可以利用這項功能過濾不當內容,確保內容的合規性和安全性!
- 企業文件管理者:需要有效率地整理和管理大量文件的企業,可以透過 Vision API 和 Natural Language API 協同作業,實現快速的文件分類、擷取和充實,提高工作效率。
- 搜圖使用者:對於需要搜尋各種主題和場景的圖片的使用者,Vision API 和 AutoML Vision 提供了豐富的搜尋功能,甚至支援自訂的圖片類別,滿足個性化搜圖需求。
免費 AI 工具四:Video AI(偵測影片)
如果你想使用人工智慧來檢測影片中的內容,例如:物件、人物、徽標、語音、文字…等,那麼 Cloud Video Intelligence API 可能正是你需要的 AI 工具!Video AI 提供精確的影片分析服務,能在存檔影片和串流影片中識別超過 20,000 個的物件、地點和動作,並擷取影片、鏡頭或畫面層級的豐富中繼資料。
Video AI 的技術亮點
- 精準的影片分析服務:透過 AutoML Video Intelligence,你能夠建立自訂實體標籤,識別存檔影片和串流影片中的物件、地點和動作,還可以檢測影片中是否有任何可能引發恐懼症的物件,例如:蜘蛛、蛇或其他特定生物。
- 新手友善的 AI 工具:Vertex AI 影片的 AutoML 圖形介面專為新手而設,可以輕鬆地訓練自定義模型,實現對影片中物件的分類和追蹤,即使你對機器學習經驗有限,也能輕鬆上手!
- 影片自動辨識:Video Intelligence API 提供先進的機器學習模型,能夠自動辨識已儲存影片,以及串流影片中的眾多物件、地點和動作。
- 提升媒體曝光率:你可以輕鬆地建立智慧型影片應用程式,透過精選短片和個性化的推薦內容,營造引人入勝的客戶體驗。
- 優化媒體管理流程:影片目錄的搜尋方式與搜尋文件相似。擷取的中繼資料可用於建立影片內容索引、組織和搜尋影片內容,並進行控制以篩選出最相關的內容。此功能大大簡化媒體管理程序,使影片目錄的搜尋方式更加直觀。
免費用量限制
每位客戶每月均可免費分析 1,000 個單位的豐富影片中繼資料,且不計入免費配額。此外,Video Intelligence API 提供每月 1,000 分鐘的免費儲存影片額度,以及 1,000 分鐘的免費串流影片額度。
特別推薦族群
- 內容審核需求者:Video AI 適用於內容審核,能準確識別指定影片中的不當內容出現時間點。特別適合需要即時內容審核、篩選內容或用戶自製內容的平台,提高審核效率。
- 內容推薦引擎使用者:利用 Video Intelligence API 生成的標籤、使用者的觀看記錄和偏好,可建立強大的內容推薦引擎,進而簡化內容曝光機制,引導使用者找到最相關的所需內容。
- 媒體內容管理者:這項 AI 工具特別適用於擁有龐大媒體內容庫的公司,這包括媒體公司、視頻串流平台、影片製作單位…等。透過使用 Video Intelligence API 的中繼資料功能,可以自動分析大量內容,並立即建立索引封存檔。
- 內容相關廣告投放者:Video AI 能在影片中識別合適的位置,以插入與影片內容相關的廣告。透過比對特定時間範圍標籤與廣告內容,找出適合放送廣告的位置,提升廣告投放的效果。
免費 AI 工具五:Speech-to-Text(語音轉文字)
Speech-to-Text 是一項強大的語音轉文字服務,它使用特定領域專用模型,將語音準確轉換為文字,從而提升了服務品質,功能媲美 AWS Transcribe,為用戶提供了高效且準確的語音轉文字功能!你可以使用 Speech-to-Text API,將語音轉錄的技術輕鬆融入應用程式當中,其強大的功能還包括將內容準確轉錄為字幕,同時從客戶互動資料中獲得深入的分析結果,進一步提升服務品質。
Speech-to-Text 的技術亮點
- 絕佳準確率:利用 Google 最先進的深度學習類神經網路演算法,提供高度準確的自動語音辨識功能(ASR),並具備多聲道辨識功能,能夠在多聲道環境下辨識各聲道,保留發言順序。
- 全球語言支援:Speech-to-Text 涵蓋超過 125 種語言和方言,滿足全球用戶的多樣需求。Speech-to-Text 的基礎模型是 Chirp,經過數百萬小時的音訊資料和數十億個文句的訓練,你可以利用 Chirp 為全球客戶建構具備「支援語音功能」的應用程式。
- 輕鬆自訂模型:透過 Speech-to-Text 的使用者介面,能夠輕鬆製作及管理自訂資源,並進行實驗,實現模型的個性化定制。針對語音控制、電話和影片語音轉錄…等需求,提供多個最佳化的特定領域模型。
- 靈活部署模型:支援在任何所需位置部署 ASR 技術,可在雲端環境透過 API 使用,實現高度靈活的模型部署。還能透過使用者介面進行語音實驗,可嘗試不同設定以達到最佳品質和準確率。
- 語音調整功能:提供了輸入提示的選項,這有助於在轉錄罕見或特定領域專用的字詞或詞組時提高轉錄的準確率。同時,它還支援將口述的數字自動轉換為地址、年份或貨幣金額等內容,進一步提升轉錄的精確性。
- 內容篩選:不雅用語篩選器可以協助偵測不當內容,有效過濾文字結果中的不雅字詞或不專業的內容。這項 AI 工具還能在轉錄結果中,自動加上正確的標點符號,進一步提高內容的準確性。
免費用量限制
新客戶首次註冊即可享有價值 $300 美元的免費抵免額,全面體驗這項免費 AI 工具的優越功能!Speech-to-Text API 利用同步語音辨識功能轉錄音訊檔案,最大長度限制為 60 秒。您可透過本機檔案或儲存在 Google Cloud Storage 的音訊內容進行上傳。每月享有前 60 分鐘的免費音訊處理額度。
特別推薦族群
- 會議記錄助理: 在視訊會議等多聲道情境下,Speech-to-Text 能準確識別各個聲道,有效註記轉錄結果。同時,這項 AI 工具擁有優秀的雜訊處理功能,可在多種環境雜訊中執行,避免額外的噪音消除步驟。此外,Speech-to-Text 的 Beta 版本具備自動預測對話中每句話的發言者,可為每一位說話者做出分段標記,協助你更準確地辨識和判斷說話者的身分。
- 自媒體工作者:這項免費 AI 工具能夠更有效率地轉錄多媒體內容,透過轉錄音訊和影片提供字幕,以提高目標對象觸及率及改善體驗。同時,它也適用於即時為串流內容新增字幕,特別適合為影片或有眾多說話者的內容,建立索引和提供字幕。
- IoT 開發者:Speech-to-Text 提供了語音控制機制,允許整合語音指令和語音搜尋的功能。透過這項 AI 功能,開發者得以在物聯網應用程式中實現支援語音的體驗,為使用者提供更便捷、直覺的互動方式。
- 客服中心:Speech-to-Text 特別適用於希望提升客戶服務品質的企業,尤其是那些導入了IVR(互動式語音回應)和虛擬服務專員對話功能的客服中心,因為這項 AI 工具可以分析通話內容,進而深入瞭解客戶需求、加強客戶服務系統。
免費 AI 工具六:Text-to-Speech(文字轉語音)
Text-to-Speech 提供高傳真的語音合成,利用 Google 的創新技術打造擬真的人聲,基於 DeepMind 的語音合成專業技術,為你的應用程式提供最佳的聽覺體驗。透過 API,你可以選擇超過 380 種語音,支援 50 多種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文…等,可以根據使用者和應用程式的需求,挑選最適合的聲音!
Text-to-Speech 的技術亮點
歡迎試聽範例語音!
- 高傳真語音:使用 Google 的創新技術與 DeepMind 的專業知識,實現高傳真的語音合成。這種技術能夠生成語調宛如真人的自然語音,提供使用者極為擬真的語音體驗。
- 最豐富的語音選項:提供超過 380 種語音選項,支援 50 多種語言和方言,包括中文、北印度文、西班牙文、阿拉伯文、俄文等。這讓使用者能夠挑選最符合其需求和應用程式特色的語音,滿足不同文化和語境的需求。
- 獨一無二的語音:創造獨特的語音,使機構能夠在所有客戶接觸點上呈現自有品牌特色,而不與其他機構共用相同的語音。這有助於強化品牌形象,提升品牌辨識度,不怕撞聲!
- Neural2 語音:基於最新研究的 Neural2 語音,並採用立即可用 Custom Voice 技術,可協助打造國際化的語音體驗。這種技術保證使用者享有最新的合成語音功能。
- Studio Voices (預先發布版):在錄音室等級的環境中錄製專業人員講述的內容,提供出色的聽覺體驗。這也能透過戴上耳機進一步增強效果,使聽眾感受到更高品質的聲音。
- Custom Voice:允許使用者用自己錄製的音訊訓練自訂語音模型,為機構打造聽起來更自然的獨特語音。可定義和選擇適合機構的語音設定檔,並根據語音需求迅速調整,完全不需要重新錄製新的詞組。
- 語音微調:提供語音微調功能,允許使用者自訂所選語音的音調,最多可以比預設音調升高或降低 20 個半音。同時也支援調整誦讀速度,使其適應各種應用情境。
- 文字與 SSML 支援:可以使用語音合成標記語言 (SSML) 標記來自訂語音,例如:加入停頓點、數字、日期與時間格式設定,以及其他發音指示。這提供了更高度的自訂能力,以滿足各種特定需求。
免費用量限制
每月 Text-to-Speech 的費用計算是基於向服務傳送進行音訊合成的字元數。WaveNet 語音享有每月前 100 萬個字元的免費額度,而標準(非 WaveNet)語音,則提供每月前 400 萬個字元的免費額度。當您的免費方案用盡後,系統將根據 Text-to-Speech 處理的文字量向您收費,計費單位為每 100 萬個字元。
特別推薦族群
- 客服中心和客務部門:利用 Dialogflow 的語音機器人,能夠動態生成語音,而非播放預先錄製的靜態語音,從而提供更高品質的客戶服務語音體驗。透過高品質的合成語音進行互動,使來電者感受到親切且個人化的服務,提升客戶滿意度。
- 應用程式開發者、裝置製造商:將你的裝置當做文字閱讀器使用,使其能夠發出擬真的語音,與使用者自然地互動。結合 Speech-to-Text 和 Natural Language 技術,建立端對端的語音使用者介面,提供輕鬆且引人入勝的互動體驗。
- 無障礙服務提供者:透過這項AI工具,輕鬆實現系統對電子節目表文字內容的語音讀取,提供更優質的使用者體驗,同時確保你的服務和應用程式符合無障礙需求。透過整合文字轉語音功能至電子節目表,不僅為視障人士提供更豐富的娛樂體驗,同時凸顯你的服務更具包容性!
結論
當我親自操作這些 AI 工具時,可以深刻地感受到它們的設計核心都是「以人為本」,幫助我們更有效地解決現實生活中的問題,並提升人們的創造力。隨著人工智慧普及化,我認為面對不會的 AI 技術,一直練習就好了!面對這些科技新知,如果你正感到瓶頸或自我懷疑時,想跟你分享近期我最愛的詩,它扶持我在每個獨自創作的夜晚,繼續保有積極的心態。
所謂的勇氣 並不總是大聲咆哮 有時候 它是一個安靜的聲音 在一日將盡之時 低語著:「我明日會在試試看。」 -Mary Anne Radmacher
鼓勵大家抽空體驗這些 AI 工具,將這些人工智慧技術融入生活,你會發現 凡事發生必有利於你:)