[ad_1]
OpenAI, Google మరియు ఇతర సాంకేతిక సంస్థలు ఇంటర్నెట్లోని పుస్తకాలు, వికీపీడియా కథనాలు, వార్తా కథనాలు మరియు ఇతర మూలాధారాల నుండి సేకరించిన విస్తారమైన డేటాను ఉపయోగించి వారి చాట్బాట్లకు శిక్షణ ఇస్తాయి. కానీ భవిష్యత్తులో, నేను సింథటిక్ డేటా అని పిలవబడేదాన్ని ఉపయోగించాలనుకుంటున్నాను.
కృత్రిమ మేధస్సును అభివృద్ధి చేయడానికి సాంకేతిక సంస్థలు ఇంటర్నెట్లో అందుబాటులో ఉన్న అన్ని అధిక-నాణ్యత టెక్స్ట్లను ఉపయోగించుకోవచ్చు. మరియు రెండు కంపెనీలు అనుమతి లేకుండా తమ రచనలను ఉపయోగించినందుకు రచయితలు, వార్తా సంస్థలు మరియు కంప్యూటర్ ప్రోగ్రామర్ల నుండి కాపీరైట్ వ్యాజ్యాలను ఎదుర్కొంటాయి. (అటువంటి ఒక సందర్భంలో, న్యూయార్క్ టైమ్స్ OpenAI మరియు Microsoftపై దావా వేసింది.)
సింథటిక్ డేటా కాపీరైట్ సమస్యలను తగ్గించడంలో మరియు AIకి అవసరమైన శిక్షణా సామగ్రిని సరఫరా చేయడంలో సహాయపడుతుందని వారు విశ్వసిస్తున్నారు. మీరు దాని గురించి తెలుసుకోవలసినది ఇక్కడ ఉంది.
సింథటిక్ డేటా అంటే ఏమిటి?
ఇది కృత్రిమ మేధస్సు ద్వారా రూపొందించబడిన డేటా.
అంటే టెక్ కంపెనీలు AIకి శిక్షణ ఇవ్వాలని కోరుకుంటున్నాయా?
అవును. మానవ-వ్రాతపూర్వక వచనంపై AI మోడల్లకు శిక్షణ ఇవ్వడానికి బదులుగా, Google, OpenAI మరియు ఆంత్రోపిక్ వంటి సాంకేతిక సంస్థలు ఇతర AI మోడల్ల ద్వారా రూపొందించబడిన డేటాను ఉపయోగించి వారి సాంకేతికతకు శిక్షణ ఇవ్వాలనుకుంటున్నాయి.
సింథటిక్ డేటా పని చేస్తుందా?
ఖచ్చితంగా కాదు. AI నమూనాలు విషయాలు తప్పుగా ఉంటాయి లేదా విషయాలను తయారు చేస్తాయి. వారు శిక్షణ పొందిన ఇంటర్నెట్ డేటాలో కనిపించే పక్షపాతాలను గుర్తించగలరని కూడా వారు చూపించారు. అందువల్ల, AIకి శిక్షణ ఇవ్వడానికి కంపెనీలు AIని ఉపయోగించినప్పుడు, వారు తమ స్వంత లోపాలను పెంచుకోవచ్చు.
సింథటిక్ డేటాను ఇప్పుడు టెక్నాలజీ కంపెనీలు విస్తృతంగా ఉపయోగిస్తున్నారా?
లేదు, టెక్నాలజీ కంపెనీలు ప్రయోగాలు చేస్తున్నాయి. అయినప్పటికీ, సింథటిక్ డేటా సంభావ్య లోపాలను కలిగి ఉంది, ఇది నేడు AI సిస్టమ్లు ఎలా నిర్మించబడుతుందో దానిలో పెద్ద భాగం కాకుండా నిరోధించవచ్చు.
కాబట్టి టెక్ కంపెనీలు సింథటిక్ డేటాను భవిష్యత్తు అని ఎందుకు పేర్కొంటున్నాయి?
కంపెనీలు సింథటిక్ డేటాను సృష్టించే విధానాన్ని మెరుగుపరచగలవని నమ్ముతున్నాయి. OpenAI మరియు ఇతరులు మరింత ఉపయోగకరమైన మరియు నమ్మదగిన సింథటిక్ డేటాను ఉత్పత్తి చేయడానికి రెండు వేర్వేరు AI నమూనాలు కలిసి పని చేసే మార్గాలను అన్వేషిస్తున్నారు.
ఒక AI మోడల్ డేటాను ఉత్పత్తి చేస్తుంది. రెండవ మోడల్ డేటా మంచిదా, చెడ్డదా, కచ్చితమైనదా కాదా అని నిర్ణయిస్తూ, మానవుని వలె డేటాను నిర్ధారిస్తుంది. వాస్తవానికి, టెక్స్ట్ రాయడం కంటే నిర్ణయాలు తీసుకోవడంలో AI నమూనాలు మెరుగ్గా ఉంటాయి.
“మీరు సాంకేతికతకు రెండు విషయాలను ఇస్తే, ఏది ఉత్తమమైనదో ఎంచుకోవడం చాలా మంచిది” అని AI స్టార్టప్ సింథ్ల్యాబ్స్ CEO నాథన్ లిల్ అన్నారు.
ఇది మరింత మెరుగైన చాట్బాట్లకు శిక్షణ ఇవ్వడానికి అవసరమైన అధిక-నాణ్యత డేటాను అందిస్తుంది.
ఈ టెక్నిక్ పని చేస్తుందా?
ఒక కోణంలో. ఇది అన్ని రెండవ AI మోడల్కు వస్తుంది. మీరు వచనాన్ని ఎంత బాగా అంచనా వేస్తారు?
ఈ ప్రయత్నంలో ఆంత్రోపిక్ అత్యంత చురుకుగా ఉంది. కంపెనీ పరిశోధకులు జాగ్రత్తగా ఎంచుకున్న “కాన్ఫిగరేషన్లను” ఉపయోగించి రెండవ AI మోడల్ను చక్కగా తీర్చిదిద్దారు. స్వేచ్ఛ, సమానత్వం మరియు సోదరభావం లేదా జీవితం, స్వేచ్ఛ మరియు వ్యక్తిగత భద్రత వంటి నిర్దిష్ట సూత్రాలకు మద్దతు ఇచ్చే పాఠాలను ఎంచుకోవడానికి ఇది నమూనాను బోధిస్తుంది. ఆంత్రోపిక్ పద్ధతిని “కాన్స్టిట్యూషనల్ AI” అంటారు.
ఆంత్రోపిక్ లాంటి ప్రక్రియను ఉపయోగించి సింథటిక్ డేటాను రూపొందించడానికి రెండు AI మోడల్లు ఎలా కలిసి పని చేయగలవో ఇక్కడ ఉంది.
అయినప్పటికీ, రెండవ AI మోడల్ ట్రాక్లో ఉందని నిర్ధారించుకోవడానికి మానవుడు అవసరం. ఇది ఈ ప్రక్రియ ద్వారా ఉత్పత్తి చేయగల సింథటిక్ డేటా మొత్తాన్ని పరిమితం చేస్తుంది. మరియు ఆంత్రోపిక్ వంటి పద్ధతులు AI వ్యవస్థలను మెరుగుపరచడం కొనసాగిస్తాయా అనే దానిపై పరిశోధకులు విభజించబడ్డారు.
కాపీరైట్ చేయబడిన సమాచారాన్ని ఉపయోగించకుండా కంపెనీలకు సింథటిక్ డేటా సహాయం చేయగలదా?
సింథటిక్ డేటాను రూపొందించే AI నమూనాలు మానవ-సృష్టించిన డేటాపై శిక్షణ పొందుతాయి, వీటిలో ఎక్కువ భాగం కాపీరైట్ చేయబడింది. అందువల్ల, OpenAI మరియు Anthropic వంటి కంపెనీలు తమ కాపీరైట్ చేయబడిన టెక్స్ట్, చిత్రాలు మరియు వీడియోలను అనుమతి లేకుండా ఉపయోగించాయని కాపీరైట్ యజమానులు క్లెయిమ్ చేయవచ్చు.
గతంలో OpenAIలో పరిశోధకుడిగా పనిచేసిన బ్రిటీష్ కొలంబియా విశ్వవిద్యాలయంలో కంప్యూటర్ సైన్స్ ప్రొఫెసర్ అయిన జెఫ్ క్లూన్, AI నమూనాలు చివరికి మానవ మెదడు కంటే కొన్ని విధాలుగా శక్తివంతమైనవిగా ఉంటాయని చెప్పారు. కానీ వారు మానవ మెదడు నుండి నేర్చుకున్నందున వారు అలా చేస్తారు.
“న్యూటన్ మాటలలో, AI జెయింట్ హ్యూమన్ డేటాసెట్ల భుజాలపై నిలబడి మరింత చూడగలదు,” అని అతను చెప్పాడు.
[ad_2]
Source link
