added backend code

2023-12-24 15:52:15 +01:00 · 2023-12-24 15:52:15 +01:00 · 34729f2a77
commit 34729f2a77
parent 0b0af74bf1
2 changed files with 256 additions and 1 deletions
--- a/.gitignore
+++ b/.gitignore
@ -96,7 +96,8 @@ src/config/settings.ini
 speech_to_text_models/*
 !speech_to_text_models/Where to get STT models.txt
 build/
-backend/
+backend/*
+!backend/loquendoBot_backend.py
 language_detection_model/*
 !language_detection_model/Where to get language detection model.txt
 .vscode/
--- a/src/backend/loquendoBot_backend.py
+++ b/src/backend/loquendoBot_backend.py
@ -0,0 +1,254 @@
+from flask import Flask, Response, jsonify, request
+import gevent
+import gevent.monkey
+import json
+
+gevent.monkey.patch_all()
+import gevent.queue
+
+import configparser
+import pyttsx3
+import sys
+import os
+
+import queue
+import sys
+import sounddevice as sd
+
+import fasttext
+
+from deep_translator import (
+    MyMemoryTranslator,
+)
+
+import emoji
+
+from vosk import Model, KaldiRecognizer, SetLogLevel
+
+# global variables
+
+SetLogLevel(-1)
+
+settings = configparser.ConfigParser()
+app = Flask(__name__)
+
+
+settingsPath = ""
+environment = ""
+q = queue.Queue()
+
+
+# gobal functions
+
+# classes
+
+
+class LanguageDetection:
+    def __init__(self):
+        pretrained_lang_model = (
+            r"C:\repos\LoquendoBotV2\language_detection_model\lid.176.bin"
+        )
+        self.model = fasttext.load_model(pretrained_lang_model)
+
+    def predict_lang(self, text):
+        predictions = self.model.predict(text, k=5)  # returns top 2 matching languages
+        language_codes = []
+        for prediction in predictions[0]:
+            language_codes.append(prediction.replace("__label__", ""))
+
+        return language_codes
+
+
+class STT:
+    samplerate = None
+    args = ""
+    remaining = ""
+
+    def __init__(self):
+        device_info = sd.query_devices(0, "input")
+        self.samplerate = int(device_info["default_samplerate"])
+        self.model = Model(
+            r"C:\repos\LoquendoBotV2\speech_to_text_models\vosk-model-small-es-0.42"
+        )
+        self.dump_fn = None
+
+        self.q = gevent.queue.Queue()
+        self.rec = None
+        self.is_running = False
+
+    def callback(self, indata, frames, time, status):
+        if status:
+            print(status, file=sys.stderr)
+        self.q.put(bytes(indata))
+
+    def start_recognition(self):
+        self.is_running = True
+
+        with sd.RawInputStream(
+            samplerate=self.samplerate,
+            blocksize=8000,
+            device=0,  # Default microphone
+            dtype="int16",
+            channels=1,
+            callback=self.callback,
+        ):
+            self.rec = KaldiRecognizer(self.model, self.samplerate)
+            while True:
+                data = self.q.get()
+                if self.rec.AcceptWaveform(data):
+                    result = self.rec.Result()
+                    result_json = json.loads(str(result))
+                    yield f"data: {result_json}\n\n"
+                else:
+                    partialResult = self.rec.PartialResult()
+                    result_json = json.loads(str(partialResult))
+                    yield f"data: {result_json}\n\n"
+
+    def stop_recognition(self):
+        self.is_running = False
+
+
+speech_recognition_service = STT()
+
+
+class TTS:
+    engine = None
+    rate = None
+
+    def __init__(self):
+        self.engine = pyttsx3.init()
+
+    def say(self, message, voice, count):
+        voices = self.engine.getProperty("voices")
+        for item in voices:
+            if item.name == voice:
+                matching_id = item.id
+                break
+        self.engine.setProperty("voice", matching_id)
+
+        if environment == "dev":
+            settings_folder = os.path.dirname(settingsPath)
+            src_folder = os.path.dirname(settings_folder)
+            saveLocation = os.path.join(
+                src_folder, "sounds\\tts", f"Internal_{count}.mp3"
+            )
+        else:
+            resources_folder = os.path.dirname(settingsPath)
+            saveLocation = os.path.join(
+                resources_folder, "sounds\\tts", f"Internal_{count}.mp3"
+            )
+
+        self.engine.save_to_file(message, saveLocation)
+        self.engine.runAndWait()
+
+    def voices(self):
+        voices = self.engine.getProperty("voices")
+        self.engine.say(
+            ""
+        )  # engine breaks if you do not say something after getting voices
+        self.engine.runAndWait()
+
+        return [voice.name for voice in voices]
+
+
+text_to_speech_service = TTS()
+
+# endpoints
+
+
+@app.route("/stream", methods=["GET"])
+def stream_recognition():
+    def generate():
+        return speech_recognition_service.start_recognition()
+
+    return Response(generate(), content_type="text/event-stream")
+
+
+@app.route("/stop", methods=["POST"])
+def stop_recording():
+    speech_recognition_service.stop_recognition()
+    return Response("Speech recognition stopped", status=200)
+
+
+# @app.before_request
+# def custom_warning():
+#     if environment == "dev":
+#         print(
+#             # "Running in internal development environment. This server is not for production use."
+#         )
+
+
+@app.route("/terminate", methods=["GET"])
+def terminate_processes():
+    shutdown_server()
+    os._exit(0)
+
+
+def shutdown_server():
+    func = request.environ.get("sever shutdown")
+    if func is None:
+        raise RuntimeError("Server is not running")
+    func()
+
+
+# @app.route("/detect", methods=["POST"])
+# def server_status():
+#     try:
+#         request_data = request.json
+#         message = request_data.get("message", "")
+#         confidence_values = detector.compute_language_confidence_values(message)
+#         for language, value in confidence_values:
+#             print(f"{language.name}: {value:.2f}")
+#             message = request_data.get("message", "")
+#     except Exception as e:
+#         return jsonify({"error": "An error occurred"}), 500
+#     return jsonify({"message": "Audio triggered"}), 200
+
+
+@app.route("/status", methods=["GET"])
+def server_status():
+    return jsonify({"status": "server is running"})
+
+
+@app.route("/audio", methods=["POST"])
+def trigger_backend_event():
+    try:
+        request_data = request.json
+        message = request_data.get("message", "")
+        voice = request_data.get("voice")
+        count = request_data.get("count")
+        text_to_speech_service.say(message, voice, count)
+    except Exception as e:
+        return jsonify({"error": "An error occurred"}), 500
+    return jsonify({"message": "Audio triggered"}), 200
+
+
+@app.route("/voices", methods=["GET"])
+def get_voices():
+    try:
+        voices = text_to_speech_service.voices()
+        return jsonify({"voices": voices}), 200
+    except Exception as e:
+        return jsonify({"error": "An error occurred"}), 500
+
+
+if __name__ == "__main__":
+    LANGUAGE = LanguageDetection()
+    lang = LANGUAGE.predict_lang("hola")
+    print(lang)
+    text = "Keep it up. You are awesome"
+    translated = MyMemoryTranslator(
+        source="english", target="spanish latin america"
+    ).translate(text)
+    print(translated)
+    if len(sys.argv) > 1:
+        environment = sys.argv[2]
+        settingsPath = os.path.normpath(sys.argv[1])
+        settings.read(settingsPath)
+        port = int(settings["GENERAL"]["PORT"])
+    else:
+        environment = "dev"
+        port = 9000
+        stream_recognition()
+
+    app.run(host="127.0.0.1", port=port)