主頁 > .NET開發 > WinUI(WASDK)使用ChatGPT和攝像頭手勢識別結合TTS讓機器人更智能

WinUI(WASDK)使用ChatGPT和攝像頭手勢識別結合TTS讓機器人更智能

2023-03-11 08:11:34 .NET開發

前言

之前寫過一篇基于ML.NET的手部關鍵點分類的博客,可以根據圖片進行手部的提取分類,于是我就將手勢分類和攝像頭資料結合,集成到了我開發的電子腦殼軟體里,

電子腦殼是一個為稚暉君開源的桌面機器人ElectronBot提供一些軟體功能的桌面程式專案,它是由綠蔭阿廣也就是我開發的,使用了微軟的WASDK框架,

電子腦殼算是本人學習WinUI開發的練習專案了,通過根據一些開源的專案的學習,將一些功能進行整合,比如手勢識別觸發語音轉文本,然后接入ChatGPT結合文本轉語音的方式,實作機器人的對話,

此博客算是實戰記錄了,替大家先踩坑,

下圖鏈接為機器人的演示視頻,通過對話,讓ChatGPT給我講了一個駱駝祥子的故事,只不過這個故事有點離譜,本來前部分還正常,后面就開始瞎編了,比如祥子有了一頭驢,最后還成為了商人,

大家觀看覺得不錯的話給點個贊,

B站視頻演示鏈接

具體的實作方案

1. 方案思路敘述

整體的流程如下圖,圖畫的不一定標準,但是大體如圖所示:
識別流程圖

  • 處理攝像頭幀事件,通過將攝像頭的幀資料處理進行手勢的匹配,
  • 手勢識別結果處理方法呼叫語音轉文本邏輯,
  • 轉的文本通過呼叫ChatGPT API實作智能回復,
  • 將回復結果文本通過TTS播放到機器人上的揚聲器,完成一次對話,

2. 所用技術說明

  • WASDK

  • MediaPipe offers open source cross-platform, customizable ML solutions for live and streaming media.

  • ML.NET 開放源代碼的跨平臺機器學習框架

    上面的技術堆疊在我上面文章里有講述,這里就不展開了,大家有興趣的可以點擊之前的文章查看,

    WinUI(WASDK)使用MediaPipe檢查手部關鍵點并通過ML.NET進行手勢分類

代碼講解

1. 專案介紹

電子腦殼專案本身是一個標準的MVVM的WinUI專案,使用微軟的輕量級DI容器管理物件的生命周期,MVVM使用的是社區工具包提供的框架,支持代碼生成,簡化VM的代碼,

project

2. 核心代碼講解

  • 實時視頻流決議手勢,通過命名空間Windows.Media.Capture下的MediaCapture類和Windows.Media.Capture.Frames命名空間下的MediaFrameReader類,創建物件并注冊幀處理事件,在幀處理事件中處理視頻畫面并傳出到手勢識別服務里進行手勢識別,主要代碼如下,

    //幀處理結果訂閱
    private void Current_SoftwareBitmapFrameCaptured(object? sender, SoftwareBitmapEventArgs e)
    {
        if (e.SoftwareBitmap is not null)
        {
    
            if (e.SoftwareBitmap.BitmapPixelFormat != BitmapPixelFormat.Bgra8 ||
                  e.SoftwareBitmap.BitmapAlphaMode == BitmapAlphaMode.Straight)
            {
                e.SoftwareBitmap = SoftwareBitmap.Convert(
                    e.SoftwareBitmap, BitmapPixelFormat.Bgra8, BitmapAlphaMode.Premultiplied);
            }
            //手勢識別服務獲取
            var service = App.GetService<GestureClassificationService>();
            //呼叫手勢分析代碼
            _ = service.HandPredictResultUnUseQueueAsync(calculator, modelPath, e.SoftwareBitmap);
        }
    }
    

    涉及到的代碼如下:

    MainViewModel

    CameraFrameService

  • 語音轉文本的實作,WinUI(WASDK)繼承了UWP的現代化的UI,也可以很好的使用WinRT的API進行操作,主要涉及的物件為命名空間Windows.Media.SpeechRecognition下的SpeechRecognizer物件,

    官網檔案地址語音互動 定義自定義識別約束

    以下是語音轉文本的部分代碼 詳細代碼點擊文字

    //創建識別為網路搜索
    var webSearchGrammar = new SpeechRecognitionTopicConstraint(SpeechRecognitionScenario.WebSearch, "webSearch", "sound");
            //webSearchGrammar.Probability = SpeechRecognitionConstraintProbability.Min;
            speechRecognizer.Constraints.Add(webSearchGrammar);
            SpeechRecognitionCompilationResult result = await speechRecognizer.CompileConstraintsAsync();
    
            if (result.Status != SpeechRecognitionResultStatus.Success)
            {
                // Disable the recognition buttons.
            }
            else
            {
                // Handle continuous recognition events. Completed fires when various error states occur. ResultGenerated fires when
                // some recognized phrases occur, or the garbage rule is hit.
                //注冊指定的事件
                speechRecognizer.ContinuousRecognitionSession.Completed += ContinuousRecognitionSession_Completed;
                speechRecognizer.ContinuousRecognitionSession.ResultGenerated += ContinuousRecognitionSession_ResultGenerated;
            }
    
  • 語音轉文本之后呼叫ChatGPT API進行對話回復獲取,使用ChatGPTSharp封裝庫實作,

    代碼如下:

    private async void ContinuousRecognitionSession_ResultGenerated(SpeechContinuousRecognitionSession sender, SpeechContinuousRecognitionResultGeneratedEventArgs args)
    {
        // The garbage rule will not have a tag associated with it, the other rules will return a string matching the tag provided
        // when generating the grammar.
        var tag = "unknown";
    
        if (args.Result.Constraint != null && isListening)
        {
            tag = args.Result.Constraint.Tag;
    
            App.MainWindow.DispatcherQueue.TryEnqueue(() =>
            {
                ToastHelper.SendToast(tag, TimeSpan.FromSeconds(3));
            });
    
    
            Debug.WriteLine($"識別內容---{tag}");
        }
    
        // Developers may decide to use per-phrase confidence levels in order to tune the behavior of their 
        // grammar based on testing.
        if (args.Result.Confidence == SpeechRecognitionConfidence.Medium ||
            args.Result.Confidence == SpeechRecognitionConfidence.High)
        {
            var result = string.Format("Heard: '{0}', (Tag: '{1}', Confidence: {2})", args.Result.Text, tag, args.Result.Confidence.ToString());
    
    
            App.MainWindow.DispatcherQueue.TryEnqueue(() =>
            {
                ToastHelper.SendToast(result, TimeSpan.FromSeconds(3));
            });
    
    
            if (args.Result.Text.ToUpper() == "打開B站")
            {
                await Launcher.LaunchUriAsync(new Uri(@"https://www.bilibili.com/"));
            }
            else if (args.Result.Text.ToUpper() == "撒個嬌")
            {
                ElectronBotHelper.Instance.ToPlayEmojisRandom();
            }
            else
            {
                try
                {
                    // 根據機器人客戶端工廠創建指定型別的處理程式 可以支持多種聊天API
                    var chatBotClientFactory = App.GetService<IChatbotClientFactory>();
    
                    var chatBotClientName = (await App.GetService<ILocalSettingsService>()
                         .ReadSettingAsync<ComboxItemModel>(Constants.DefaultChatBotNameKey))?.DataKey;
    
                    if (string.IsNullOrEmpty(chatBotClientName))
                    {
                        throw new Exception("未配置語音提供程式機密資料");
                    }
    
                    var chatBotClient = chatBotClientFactory.CreateChatbotClient(chatBotClientName);
                    //呼叫指定的實作獲取聊天回傳結果
                    var resultText = await chatBotClient.AskQuestionResultAsync(args.Result.Text);
    
                    //isListening = false;
                    await ReleaseRecognizerAsync();
                    //呼叫文本轉語音并進行播放方法
                    await ElectronBotHelper.Instance.MediaPlayerPlaySoundByTTSAsync(resultText, false);      
                }
                catch (Exception ex)
                {
                    App.MainWindow.DispatcherQueue.TryEnqueue(() =>
                    {
                        ToastHelper.SendToast(ex.Message, TimeSpan.FromSeconds(3));
                    });
    
                }
            }
        }
        else
        {
        }
    }
    
  • 結果文本轉語音并進行播放,通過Windows.Media.SpeechSynthesis命名空間下的SpeechSynthesizer類,使用下面的代碼可以將文本轉化成Stream,

      using SpeechSynthesizer synthesizer = new();
                // Create a stream from the text. This will be played using a media element.
    
                //將文本轉化為Stream
                var synthesisStream = await synthesizer.SynthesizeTextToStreamAsync(text);
    

    然后使用MediaPlayer物件進行語音的播報,

    
     /// <summary>
    /// 播放聲音
    /// </summary>
    /// <param name="content"></param>
    /// <returns></returns>
    public async Task MediaPlayerPlaySoundByTTSAsync(string content, bool isOpenMediaEnded = true)
    {
        _isOpenMediaEnded = isOpenMediaEnded;
        if (!string.IsNullOrWhiteSpace(content))
        {
            try
            {
                var localSettingsService = App.GetService<ILocalSettingsService>();
    
                var audioModel = await localSettingsService
                    .ReadSettingAsync<ComboxItemModel>(Constants.DefaultAudioNameKey);
    
                var audioDevs = await EbHelper.FindAudioDeviceListAsync();
    
                if (audioModel != null)
                {
                    var audioSelect = audioDevs.FirstOrDefault(c => c.DataValue =https://www.cnblogs.com/GreenShade/p/= audioModel.DataValue) ?? new ComboxItemModel();
    
                    var selectedDevice = (DeviceInformation)audioSelect.Tag!;
    
                    if (selectedDevice != null)
                    {
                        mediaPlayer.AudioDevice = selectedDevice;
                    }
                }
                //獲取TTS服務實體
                var speechAndTTSService = App.GetService();
                //轉化文本到Stream
                var stream = await speechAndTTSService.TextToSpeechAsync(content);
                //播放stream
                mediaPlayer.SetStreamSource(stream);
                mediaPlayer.Play();
                isTTS = true;
            }
            catch (Exception)
            {
            }
        }
    }
    

    至此一次完整的識別對話流程就結束了,軟體的界面如下圖,感興趣的同學可以點擊圖片查看專案原始碼地址查看其他的功能:

    電子腦殼原始碼鏈接

個人感悟

個人覺得DotNET的生態還是差了些,尤其是ML.NET的輪子還是太少了,畢竟參與的人少,而且知識遷移也需要成本,熟悉其他機器學習框架的人可能不懂DotNET,

所以作為社區的一員,我覺得我們需要走出去,然后再回來,走出去就是先學習其他的機器學習框架,然后回來用DotNET進行應用,這樣輪子多了,社區就會越來越繁榮,

我也能多多的復制粘貼大家的代碼了,

參考推薦檔案專案如下:

  • 電子腦殼有在使用的得意黑字體

  • 專案模板——TemplateStudio

  • 表盤參考專案——一個番茄鐘

  • 社區工具集——CommunityToolkit

  • 控制元件庫展示demo——WinUI-Gallery

  • 影像處理庫——opencvsharp

  • Emoji8 表情識別例子

  • ChatGPTSharp

  • WASDK檔案地址

  • MediaPipe

  • MediaPipe.NET

  • ML.NET

  • hand-gesture-recognition-using-mediapipe

  • Control DJI Tello drone with Hand gestures

轉載請註明出處,本文鏈接:https://www.uj5u.com/net/546507.html

標籤:.NET Core

上一篇:MAUI Blazor Android 輸入框軟鍵盤遮擋問題

下一篇:型別轉換

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • WebAPI簡介

    Web體系結構: 有三個核心:資源(resource),URL(統一資源識別符號)和表示 他們的關系是這樣的:一個資源由一個URL進行標識,HTTP客戶端使用URL定位資源,表示是從資源回傳資料,媒體型別是資源回傳的資料格式。 接下來我們說下HTTP. HTTP協議的系統是一種無狀態的方式,使用請求/ ......

    uj5u.com 2020-09-09 22:07:47 more
  • asp.net core 3.1 入口:Program.cs中的Main函式

    本文分析Program.cs 中Main()函式中代碼的運行順序分析asp.net core程式的啟動,重點不是剖析原始碼,而是理清程式開始時執行的順序。到呼叫了哪些實體,哪些法方。asp.net core 3.1 的程式入口在專案Program.cs檔案里,如下。ususing System; us ......

    uj5u.com 2020-09-09 22:07:49 more
  • asp.net網站作為websocket服務端的應用該如何寫

    最近被websocket的一個問題困擾了很久,有一個需求是在web網站中搭建websocket服務。客戶端通過網頁與服務器建立連接,然后服務器根據ip給客戶端網頁發送資訊。 其實,這個需求并不難,只是剛開始對websocket的內容不太了解。上網搜索了一下,有通過asp.net core 實作的、有 ......

    uj5u.com 2020-09-09 22:08:02 more
  • ASP.NET 開源匯入匯出庫Magicodes.IE Docker中使用

    Magicodes.IE在Docker中使用 更新歷史 2019.02.13 【Nuget】版本更新到2.0.2 【匯入】修復單列匯入的Bug,單元測驗“OneColumnImporter_Test”。問題見(https://github.com/dotnetcore/Magicodes.IE/is ......

    uj5u.com 2020-09-09 22:08:05 more
  • 在webform中使用ajax

    如果你用過Asp.net webform, 說明你也算是.NET 開發的老兵了。WEBform應該是2011 2013左右,當時還用visual studio 2005、 visual studio 2008。后來基本都用的是MVC。 如果是新開發的專案,估計沒人會用webform技術。但是有些舊版 ......

    uj5u.com 2020-09-09 22:08:50 more
  • iis添加asp.net網站,訪問提示:由于擴展配置問題而無法提供您請求的

    今天在iis服務器配置asp.net網站,遇到一個問題,記錄一下: 問題:由于擴展配置問題而無法提供您請求的頁面。如果該頁面是腳本,請添加處理程式。如果應下載檔案,請添加 MIME 映射。 WindowServer2012服務器,添加角色安裝完.netframework和iis之后,運行aspx頁面 ......

    uj5u.com 2020-09-09 22:10:00 more
  • WebAPI-處理架構

    帶著問題去思考,大家好! 問題1:HTTP請求和回傳相應的HTTP回應資訊之間發生了什么? 1:首先是最底層,托管層,位于WebAPI和底層HTTP堆疊之間 2:其次是 訊息處理程式管道層,這里比如日志和快取。OWIN的參考是將訊息處理程式管道的一些功能下移到堆疊下端的OWIN中間件了。 3:控制器處理 ......

    uj5u.com 2020-09-09 22:11:13 more
  • 微信門戶開發框架-使用指導說明書

    微信門戶應用管理系統,采用基于 MVC + Bootstrap + Ajax + Enterprise Library的技術路線,界面層采用Boostrap + Metronic組合的前端框架,資料訪問層支持Oracle、SQLServer、MySQL、PostgreSQL等資料庫。框架以MVC5,... ......

    uj5u.com 2020-09-09 22:15:18 more
  • WebAPI-HTTP編程模型

    帶著問題去思考,大家好!它是什么?它包含什么?它能干什么? 訊息 HTTP編程模型的核心就是訊息抽象,表示為:HttPRequestMessage,HttpResponseMessage.用于客戶端和服務端之間交換請求和回應訊息。 HttpMethod類包含了一組靜態屬性: private stat ......

    uj5u.com 2020-09-09 22:15:23 more
  • 部署WebApi隨筆

    一、跨域 NuGet參考Microsoft.AspNet.WebApi.Cors WebApiConfig.cs中配置: // Web API 配置和服務 config.EnableCors(new EnableCorsAttribute("*", "*", "*")); 二、清除默認回傳XML格式 ......

    uj5u.com 2020-09-09 22:15:48 more
最新发布
  • C#多執行緒學習(二) 如何操縱一個執行緒

    <a href="https://www.cnblogs.com/x-zhi/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/2943582/20220801082530.png" alt="" /></...

    uj5u.com 2023-04-19 09:17:20 more
  • C#多執行緒學習(二) 如何操縱一個執行緒

    C#多執行緒學習(二) 如何操縱一個執行緒 執行緒學習第一篇:C#多執行緒學習(一) 多執行緒的相關概念 下面我們就動手來創建一個執行緒,使用Thread類創建執行緒時,只需提供執行緒入口即可。(執行緒入口使程式知道該讓這個執行緒干什么事) 在C#中,執行緒入口是通過ThreadStart代理(delegate)來提供的 ......

    uj5u.com 2023-04-19 09:16:49 more
  • 記一次 .NET某醫療器械清洗系統 卡死分析

    <a href="https://www.cnblogs.com/huangxincheng/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/214741/20200614104537.png" alt="" /&g...

    uj5u.com 2023-04-18 08:39:04 more
  • 記一次 .NET某醫療器械清洗系統 卡死分析

    一:背景 1. 講故事 前段時間協助訓練營里的一位朋友分析了一個程式卡死的問題,回過頭來看這個案例比較經典,這篇稍微整理一下供后來者少踩坑吧。 二:WinDbg 分析 1. 為什么會卡死 因為是表單程式,理所當然就是看主執行緒此時正在做什么? 可以用 ~0s ; k 看一下便知。 0:000> k # ......

    uj5u.com 2023-04-18 08:33:10 more
  • SignalR, No Connection with that ID,IIS

    <a href="https://www.cnblogs.com/smartstar/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/u36196.jpg" alt="" /></a>...

    uj5u.com 2023-03-30 17:21:52 more
  • 一次對pool的誤用導致的.net頻繁gc的診斷分析

    <a href="https://www.cnblogs.com/dotnet-diagnostic/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/3115652/20230225090434.png" alt=""...

    uj5u.com 2023-03-28 10:15:33 more
  • 一次對pool的誤用導致的.net頻繁gc的診斷分析

    <a href="https://www.cnblogs.com/dotnet-diagnostic/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/3115652/20230225090434.png" alt=""...

    uj5u.com 2023-03-28 10:13:31 more
  • C#遍歷指定檔案夾中所有檔案的3種方法

    <a href="https://www.cnblogs.com/xbhp/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/957602/20230310105611.png" alt="" /></a&...

    uj5u.com 2023-03-27 14:46:55 more
  • C#/VB.NET:如何將PDF轉為PDF/A

    <a href="https://www.cnblogs.com/Carina-baby/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/2859233/20220427162558.png" alt="" />...

    uj5u.com 2023-03-27 14:46:35 more
  • 武裝你的WEBAPI-OData聚合查詢

    <a href="https://www.cnblogs.com/podolski/" target="_blank"><img width="48" height="48" class="pfs" src="https://pic.cnblogs.com/face/616093/20140323000327.png" alt="" /><...

    uj5u.com 2023-03-27 14:46:16 more