Linux Voice Recognition جي رياست

تعارف

مون گهڻو وقت لکڻ لاء تحقيق ڪري رهيو آهيان ۽ گهڻو ڪري مون کي هڪ مضمون لاء موضوع جي متعلق سوچيو وڃي ٿو جڏهن ته ٽريننگ اسٽيشن ڏانهن پنڌ يا عام طور تي.

هڪڙي شام کان پوء منهنجي اسٽيشن تان 1.5 ميلن جي پنڌ ​​تي سوچيو ته "اهو سٺو نه هوندو جيڪڏهن مان لکان ها جيڪو توهان کي ٻڌائڻ چاهيندو هو ۽ پوء خودڪار طريقي سان هڪ متن واري فائيل تي پهچايو آهي جنهن ۾ آئون بعد ۾ ترميم ڪري ۽ انهي جي شڪل ۾" .

مون ڪيترن ئي ڊگهي ڪلاڪن کي مختلف اختيارن سان آواز جي شناخت ۽ ترجيحن لاء ڏسڻ ۾ شامل ڪيو جن ۾ لينڪس ۾ آمريڪي سافٽويئر سافٽ ويئر استعمال ڪندي مائڪروفون جي ذريعي رڪارڊ شامل آهن، فائل کي MP3 يا WAV جي شڪل ۾ رڪارڊ ڪندي ۽ ان کي ڪنڊ لائن ذريعي تبديل ڪندي ۽ ايپليڪيشن اپليڪيشن.

اهو مقالو منهنجي نتيجي ۾ سخت محنت کان پوء گهرايو.

Linux Options

لينڪس ۾ آمريت ۽ آواز جي شناخت سافٽ ويئر ڳولڻ جي ڪوشش ڪرڻ آسان ناهي اسان کي ٿي سگهي ٿي ۽ اهو اختيار موجود نه آهي ته چوري ڪندڙ.

هي وکيپيپيشن صفحي ۾ امڪاني اختيارات جي هڪ فهرست آهي جنهن ۾ سي ايم يو ايسفڪسڪس، جوليوس ۽ سائمن شامل آهن.

مان اسپريري لينڪس استعمال ڪري رهيو آهيان جيڪو هن وقت ڊيبيا جاچنگ تي ٻڌل آهي ۽ مان توهان کي ٻڌائي ٿو ته ريزنٽسريٽ ۾ موجود واحد آواز شئي واري سسٽم Sphinx آهي.

هاڻ لينڪس لينڪس پروسيس جو ماهر ڪوشش ڪري رهيا هئا PocketSphinx پئي، جو آئون متن و Freespeech-VR ۾ هڪ وينٽ ايپ فائلن کي تبديل ڪرڻ لاء استعمال ڪيو، جو آپ کي سڌمڪ مائڪروفون کان رڪارڊ ڏيکاري ٿو.

مون وائس نمبر II ۽ ڊٽيٽيٽيو سميت Chrome جي ڪجهه ايپس جي ڪوشش ڪئي.

آخرڪار مون "ڊڪر ۽ اي ميل" ۽ "ڊاک ۽ ٽاک ڊويشن" جي ايپس جي ڪوشش ڪئي.

ڳالھ ٻولھ

ترجمو ٿيل وي آر معياري اسٽوريج ۾ موجود ناهي. مون هتي کان فائلون ڊائون لوڊ ڪيو.

زپ فائل جي مواد کي ڊائون لوڊ ڪرڻ ۽ ڪڍڻ کان پوء مون هڪ ٽرمين کي کوليو ۽ اهو فولڊر ڏانهن منتقل ڪيو ويو جتي فائلون ڪڍيون ويون.

مان ٻڌائڻ لاء هيٺ ڏنل آرڊر لکندس.

sudo python freespeech vr

مون وٽ هڪ منصفانه مهذب مائڪرو فون سان گڏ ھڪڙو هيڊفونون آھن ۽ ھڪڙي سوئي سنڌي انگريزي ڳالھھ صاف ڪري ٿي.

هيٺيون متن ونڊ وي ون ونڊو ۾ ظاهر ٿيو:

نتيجو اڄ ڪالهه يونٽ ۾ خوش آمديد ٿيو ته يقيني بڻائين ته ڪيئن بڻجڻ وارا تجربو ڪنهن کي امتحان ڪرڻو آهي جڏهن متن پڙهڻ لاء هڪ سسٽم جو طريقو تقرير آء هڪڙي ئي هڪ هو صرف اميد رکڻ جي اميد رکي ٿو ايا جڏهن اهو منهنجو نالو ڪال مان ايندڙ فون آهي، هي فائيل ڪافي ڪيسن جو فون هٿ ڪرڻ لاء جلدي ڪري ٿو. اسپين کي اسپينڪس وڃڻ جو ڪو فون نه هوندو. هڪ تربيت ۽ اوزار، ڳالهائڻ استعمال ڪريو جڏهن توهان مڪمل ڪيو ته هڪ استعمال ٿيل فائل چيو. ڪهاڻي A ۽ هڪ استعمال ڪندي جڏهن اهو ڪيتري ئي ڪاميابي آهي ته هي لينڪس اهو هو جيترو توهان کان بچڻ وارو آهي

مان صرف هاڻي اهو چوڻ پسند ڪرڻ چاهيان ٿو ته هي ڪتن جي ويب سائيٽ آهي، نه ئي ڪنهن به گولڊن ڪڪرن سان ڪو به ذڪر نه ڪيو اٿم. مان اصل ۾ آواز جي شناخت سافٽ ويئر استعمال ڪرڻ جي عمل کي بيان ڪرڻ جي ڪوشش ڪري رهيو هو.

مون سافٽ ويئر مختلف وقت ۽ پچ جي رفتار سميت ڪجهه ڪوشش ڪئي پر هن جي درستگي خراب هئي.

کيسي ايسفڪس

PocketSphinx هڪ WAV فائل وٺي سگھي ٿو ۽ ان کي متن لائن استعمال ڪندي متن ۾ تبديل ڪرڻ جي قابل آهي.

PocketSphinx ڊبيان ريزنسيريا ذريعي دستياب آهي ۽ گهڻن تقسيم لاء دستياب هجڻ گهرجي.

مون کي بنيادي مسئلي مان PocketSphinx سان مليو آهي، جيڪا توهان کي تقريبن آواز جي سڃاڻپ، زبان فائلون، لغات ۽ سسٽم کي تربيت ڏيڻ ۾ ڪنهن درجي جي ضرورت آهي.

جیب سيفينڪس کي نصب ڪرڻ کان پوء توهان کي CMU سپفڪس ويب سائيٽ تي وڃو ۽ ممڪن طور تي وڌيڪ معلومات پڙهو. توھان کي هيٺين ماڊل فائل ڊائون لوڊ ڪرڻ جي ضرورت آھي.

(جيڪڏهن توهان انگريزي آسپاس وارو نه آهيو ته ٻولي جو نمونو چونڊيو جيڪو توهان لاء مناسب آهي).

عام طور تي پيبيس ايسفڪس ۽ سوفڪسڪس لاء دستاويز اهو شخص جي ڄاڻڻ ڏکيو آهي پر ڇا مان توهان کي ڊاڪٽري فائيل ٺاهڻ ۾ ممڪن آهي ته ممڪن لفظن جي لسٽ کي استعمال ڪرڻ ۽ ٻوليء جي ماڊل کي امڪاني لفظن جي هڪ فهرست آهي.

PocketSphinx کي جاچ ڪرڻ لاء آئون پنھنجي پنھنجي آواز جي ھڪڙي رڪارڊ استعمال ڪري سگھيو، ال Pacino مان "دي ديبلز ايڊوڪيٽ" ۽ "مارگن فريينن" مان ھڪڙي نموني. هن جو نقشو مختلف آوازن جي ڪوشش ڪرڻ هو ۽ مون لاء هي ٻيو ڪو به نه آهي جيڪو ڪهاڻي ٻڌائي سگهي ٿو جيئن واضح طور تي مورگن فريمين ۽ ڪو به ڪنهن به ال Pacino وانگر لڪيرائي نه ٿو ڏئي.

PocketSphinx لاء ڪم ڪرڻ لاء اهو هڪ WAV فائل جي ضرورت آهي ۽ انهي کي ڪجهه خاص شڪل ۾ رکڻ جي ضرورت آهي. جيڪڏهن فائيل MP3 فارميٽ ۾ ايف ايم پي ايم آرڊ استعمال ڪريو ته ان کي وي ڊي فارمٽ ۾ تبديل ڪرڻ لاء:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

کيبورڊ ڪرڻ لاء هيٺ ڏنل حڪم استعمال ڪريو.

جیڪٽسڪسينڪس_ڪينٽس -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile آواز 2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

جیڪٽسڪسينڪس_continuous هڪ WAV فائل وٺندو آهي ۽ ان کي متن ڏانهن بدليندو آهي.

مٿين حڪم ۾ گبٽرفنڪسڪس کي چيو ويندو آهي ته لغت لغت کي استعمال ڪيو وڃي "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" لفظ نموني سان "cmusphinx-5.0-en-us.lm". فائل کي متن ۾ تبديل ڪيو وڃي ٿو voice2.wav (جيڪو منهنجو آواز آهي جيڪو منهنجي آواز سان ٺاهيو ويو). آخر ۾ 2> جڳهن سڀني زباني پيداوار جيڪي توهان کي نٿا ڄاڻو ته آواز جي ضرورت آهي فائل 2 آواز ۾. ٹرمینل ونڈو اندر امتحان جا حقيقي نتيجا ظاھر آھن.

منهنجي آواز کي استعمال ڪندي هن ريت آهن:

هتي گڏوگڏ ايندڙ هفتي جي باري ۾ خوش آمديد ناهي هي هفتي موضوع بابت جيڪو هڪ منٽ ۾ تسليم ٿيل سافٽ ويئر

نتيجا نتيجن سان گڏ وانگر افسوس نه آهن پر اڃا تائين حقيقت ۾ قابل استعمال نه آهي. مون کان پوء کيسي سيڪنڪس کي ال Pacino سان ڪوشش ڪرڻ جي ڪوشش ڪئي پر هن کي ڪوبه نتيجو نه موٽايو.

آخرڪار مون مون کي "بروس الاسلام" فلم مان مورگن فريينن جي آواز کي استعمال ڪرڻ جي ڪوشش ڪئي ۽ هتي جا نتيجا آهن:

000000000: اسان ان تي ڪنداسين
000000001: سڀيئي ڏاڍا سخت آھن ھائو ھي اڄ اھو آھي جيڪو ھائو ھي اھو سڀ کان وڌيڪ آھي جيڪو اسان جيئرو آھي
000000002: ليلين ۾ جيڪو بسون بال جي ٿڌ کان ٻاهر آهي يا ڄاڻي ٿو ته ڇا زندگي ۾ ڇا ڪجي
000000003: جيڪي ماڻهو بحال ڪنديون آهن
000000004: اھي ان کي نه لکيا
000000005: اھي مون تي صحيح آھن
000000006: توھان کي قاعدو آھي
000000007: مان توهان جي توقع ڪئي هئي
000000008: ۽ ان کي هتي ڄاڻيو ويو ته هڪ مثال اهو قاتل ڪرسمس جماعت هو
000000009: ان جي لکڻ جو هڪ طريقو ختم ڪري ٿو. گدا مون کي ڪجهه سوچي هميشه هميشه پائڻ
000000010: ان مسئلي وانگر متحد نه ٿيندو ته هو سٺو نه ٿيندو، آئون ان جو اندازو آهيان ته جڏهن اسان سڀ ڪجهه نه ڪيو هو ته توهان سوچيو ته دنيا ۾ آئون گهر ڪنداسين ۽ مون ڏٺو آهي
000000011: ھڪڙو پيء اھو آھي
000000012: انهي بابت ڇا ڪجهه
000000013: اهو ڏنو ويو آهي
000000014: اھي جيڪي ڪجھھ آھن سي اھي آھن جيڪي ڪجھھ نه ڪندا آھن
000000015: سڄي زوال ۾
000000016: چڱي طرح مون لاء بس آهي
000000017: اهو هڪ ناجائز آهي جيڪڏهن مان سمجهان ٿو ته اهي اهي آهن جيڪي هڪڙي ڳالهه تي شادي ڪن ٿيون ته هو اسان کي نه چاهيندا.

منهنجو امتحان شايد سمجهي سگهجي ٿو سائنسي ۽ PocketSphinx جي ڊولپرس شايد ان ڳالهه کي ٻڌائي سگھي ٿو ته مان هن سافٽويئر صحيح طريقي سان استعمال نٿو ڪري سگهان. اتي پڻ هڪ ٽيڪنڪجي آواز ٽريننگ آهي جنهن کي بهتر لغات ۽ ٻوليء جي فائلن ٺاهڻ لاء استعمال ڪري سگهجي ٿو.

منهنجي مٿان اوڀري راء راء هوندي آهي ته اهو صرف روزانو استعمال لاء استعمال ڪرڻ ڏاڍو ڏکيو آهي.

VoiceNote II

VoiceNote II هڪ Chrome ائپ آهي جيڪو گوگل وائس شناخت API استعمال ڪري ٿو.

جيڪڏهن توهان Chrome يا Chromium برائوزر استعمال ڪري رهيا آهيو ته توهان ويب اسٽور ذريعي VoiceNote II کي نصب ڪري سگھو ٿا.

VoiceNote II تي شبیہیں هڪ عجيب فيشن ۾ رکيل آهن جيئن توهان کي ونڊو جي تري ۾ زبان قائم ڪرڻ جي ضرورت آهي ۽ ايڊٽمنٽ بٽڻ ۾ تري ۾ پڻ آهي، تنهن هوندي به ريڪارڊ بٽڻ مٿاهين جڳهه ۾ آهي.

توهان کي اها ضرورت آهي ته پهرين شيء هڪ ٻولي چونڊيو آهي ۽ هي دنيا جي آئڪن تي ڪلڪ ڪندي حاصل ڪري سگهجي ٿو.

رڪارڊ شروع ڪرڻ لاء، مائڪروفون آئوٽ تي ڪلڪ ڪريو ۽ پنهنجي مائڪرو فون ۾ ڳالهائڻ شروع ڪيو. بهترين نتيجا حاصل ڪرڻ لاء مون کي سست ڳالهائڻ سان سکي رهي هئي ته هو سافٽ ويئر کي قائم رکڻ جو موقعو هوندو.

اهي نتيجا وڏيون نه هوندا هئا جيئن هيٺ ڏجن ٿا:

هيلو ۽ ڀليڪار سان خوش آمديد ٿيو. تقريبا اڄوڪي مضمونن بابت آوازن بابت آوازن جي بدران بدترين ڪائونسل 2008 ع ۾ تبديل ڪيو ويو ۽ انهي کي چڱي طرح چڱي طريقي جي حمايت ڪئي وئي جيڪا آواز واري سسٽم 2014 ۾ ڏيکارڻ لاء شامل ڪئي وئي آهي. ايڪسينبرگ فرانچين جرمن ۾ چونڊيو ويو توهان کي سمنڊ ۾ مائٽيفڪيٽ اسٽيٽٽ ۾ اچڻ وقت توهان کي لکڻي فائل لکڻ سان لکڻ جو طريقو مڪمل طور تي لکي وئي آهي. انهي سان گڏ ڪيترا ئي معياري سنڌي آسٽريليا کان ڏکڻ ايشيا مان ٺهيل آهي. اصل دستاويزن سان ۽ توهان انهن غلطين کي ڏسي سگهو ٿا جيڪي توهان کي ٻڌائڻ وارا آهن

ڊڪٽيڪانٽ

ڊيڪٽسانٽ هڪ ٻيو Chrome ايپ آهي جيڪو آمريڪن جي مقصدن لاء استعمال ٿي سگهي ٿو ۽ وڌيڪ طور تي وڌيڪ غير موجودي ٿي سگهي ٿو پر نتيجن کي VoiceNote II کان وڌيڪ بهتر نه هئا.

مون صرف ڊيڪيڪانٽو جي ڊیمو ورزن کي استعمال ڪيو آهي جيڪو توهان کي نئين دستاويز ٺاهڻ کان روڪي ٿو پر توهان کي متن تي ڳالهائڻ جي اجازت ڏئي ٿي جيڪا اڳ ۾ ئي ايڊٽرڪٽر ۾ آهي. مان آواز جي شناخت کي امتحان حاصل ڪرڻ جي قابل هو پر نتيجا VoiceNote II کان بهتر نه هئا ۽ انهي ڪري مون پرو واري ورزن لاء سائن اپ نه ڪيو.

ڊڪر ۽ ميل

"ڊرامي ۽ ميل" هڪ Android ائپ آهي جيڪو مقامي گوگل آواز جي سڃاڻپ ڪندڙ API استعمال ڪري ٿو.

"ڊڪر ۽ ميل" جي نتيجن کان سواء ٻيو نڪتو هن پروگرام جي ڪنهن به پروگرام جي ڀيٽ ۾ گهڻو بهتر هو.

هيلو لائيٽ بابت لنڪس.، اڄ اسان اسان کي آواز ۾ متن ۾ تبديل ڪرڻ بابت ڳالهايو

چال "ڊڪشن ۽ ٽپال" سان سست ۽ منحصر ڳالھائڻ آهي ۽ انهي سان گڏ توهان کي شايد هڪ تلفظ سان ڪري سگهو ٿا.

توهان ڳالهائڻ کان پوء توهان پنهنجي لاء نتيجو اي ميل ڪري سگهو ٿا.

ڳالهائڻ ۽ ڊڪشن جو تفصيل

ٻي ايپليڪيشن ايپليڪيشن جيڪو مون کي آزمائشي هو "ڳالهائي ۽ ڊاک ڊاکشن" هو.

यस एपको लागि इन्टरफेस गुच्छाको सबैभन्दा राम्रो थियो र आवाज पहिचानले वास्तवमा राम्रो काम गर्यो. ڊائريڪٽرن کي رڪارڊ ڪرڻ کان پوء آئون اي ميل ذريعي سميت مختلف طريقن سان حصيداري ڪري سگھندا.

اڄ ئي لينڪس بابت خوشخبري ۾ خوش آمديد آهيون اسان ٽائيم تائين تقرير تبديل ڪرڻ بابت ڳالهايو ٿا

جئين ته توهان مٿيون متن ڏسي سگهو ٿا جئين ته واضح طور تي حاصل ٿيڻ جي اميد آهي. سست رفتار سان ڳالهائڻ اهم آهي.

خلاصو

اصلي لينڪس آواز جي سڃاڻپ ۽ خاص طور تي تڪرار جي حوالي سان ڪجهه طريقو آهي. ڪجھ ڪي ايپليڪيشنون جيڪي گوگل وائس ايپليڪيشن استعمال ڪندا آهن پر انهن اڃا تائين ريپريزيوٽس ۾ درج نه آهن.

ChromeOS ايپليڪيشن ڪجهه بهتر ٿي ويا آهن پر منهنجي طرفان منهنجو Android فون استعمال ڪندي بهترين نتيجا حاصل ٿي ويا. ٿي سگهي ٿو ته فون هڪ بهترين مائڪروفون آهي ۽ تنهن ڪري آواز جي شناخت سافٽ ويئر جو هڪ بهتر ڪارڻ آهي.

آواز جي سڃاڻپ لاء حقيقت ۾ قابل استعمال ٿيڻ جي ضرورت آهي انهي کي گهٽ وڌائڻ جي ضرورت آهي ته ان کي وڌيڪ ضرورت سان وڌيڪ بدڪاري هجي. توهان کي ٻوليء جي ماڊل ۽ لغاتن جي آس پاس ڪرڻ جي ضرورت نه آهي ته انهي کي معقول بڻائڻ لاء.

جڏهن ته هن جي تعريف آهي ته سڄي فن جي آواز جي شناخت تمام مشڪل آهي، ڇاڪاڻ ته هر ڪنهن وٽ مختلف آواز آهي ۽ سڄي دنيا جي علائقي کان خطي ۾ ڪيتريون ئي ٻوليون آهن، دنيا ۾ استعمال ٿيندڙ سوين زبانن تي پريشان ٿيڻ تي پريشان ناهي.

تنهن ڪري منهنجو تجزيو اهو آهي ته آواز جي سڃاڻپ سافٽ ويئر اڃا تائين جاري آهي.